#OFN Concetti Chiave della Massimizzazione delle Ricompense
Interazione tra Agente e Ambiente:
Il sistema AI (agente) interagisce con il suo ambiente, ricevendo feedback sotto forma di ricompense per le sue azioni.
Esempio in
#OpenfabricA I: Un bot di trading in un mercato finanziario compie azioni (comprare, vendere, mantenere) e riceve profitti o perdite come ricompense.
Funzione di Ricompensa:
Una funzione che mappa ciascuna azione intrapresa in un dato stato a una ricompensa numerica.
Esempio: In un motore di raccomandazione, una ricompensa potrebbe essere assegnata in base al fatto che un utente clicchi su un articolo suggerito o effettui un acquisto.
Ricompensa Cumulativa:
L'obiettivo non è massimizzare le ricompense immediate ma la ricompensa totale attesa nel tempo.
Formula:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t è il ritorno totale a partire dal passo temporale t,
γ (gamma) è il fattore di sconto che controlla l'importanza delle ricompense future.
Politica (π):
Una strategia che definisce le azioni da intraprendere in ciascuno stato per massimizzare le ricompense.
Esempio: La politica di un chatbot determina come rispondere agli input degli utenti per mantenere gli utenti coinvolti e soddisfatti.