#OFN Conceptos Clave de la Maximización de Recompensas
Interacción Entre Agente y Entorno:
El sistema de IA (agente) interactúa con su entorno, recibiendo retroalimentación en forma de recompensas por sus acciones.
Ejemplo en
#OpenfabricA I: Un bot de trading en un mercado financiero toma acciones (comprar, vender, mantener) y recibe ganancias o pérdidas como recompensas.
Función de Recompensa:
Una función que mapea cada acción tomada en un estado dado a una recompensa numérica.
Ejemplo: En un motor de recomendaciones, se podría asignar una recompensa basada en si un usuario hace clic en un artículo sugerido o realiza una compra.
Recompensa Acumulativa:
El objetivo no es maximizar recompensas inmediatas, sino la recompensa total esperada a lo largo del tiempo.
Fórmula:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t es el retorno total comenzando desde el paso de tiempo t,
γ (gamma) es el factor de descuento que controla la importancia de las recompensas futuras.
Política (π):
Una estrategia que define las acciones a tomar en cada estado para maximizar recompensas.
Ejemplo: La política de un chatbot determina cómo responder a las entradas del usuario para mantener a los usuarios comprometidos y satisfechos.