#OFN Konsep Kunci dari Maksimalisasi Reward
Interaksi Agen dan Lingkungan:
Sistem AI (agen) berinteraksi dengan lingkungannya, menerima umpan balik dalam bentuk hadiah untuk tindakannya.
Contoh di
#OpenfabricA I: Bot perdagangan di pasar keuangan mengambil tindakan (beli, jual, tahan) dan menerima keuntungan atau kerugian sebagai hadiah.
Fungsi Reward:
Sebuah fungsi yang memetakan setiap tindakan yang diambil dalam keadaan tertentu ke hadiah numerik.
Contoh: Dalam mesin rekomendasi, sebuah hadiah dapat diberikan berdasarkan apakah pengguna mengklik item yang disarankan atau melakukan pembelian.
Reward Kumulatif:
Tujuannya bukan untuk memaksimalkan hadiah langsung tetapi total hadiah yang diharapkan dari waktu ke waktu.
Rumus:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t adalah total pengembalian yang dimulai dari langkah waktu t,
γ (gamma) adalah faktor diskon yang mengontrol pentingnya hadiah di masa depan.
Kebijakan (π):
Sebuah strategi yang mendefinisikan tindakan yang harus diambil dalam setiap keadaan untuk memaksimalkan hadiah.
Contoh: Kebijakan chatbot menentukan bagaimana merespons input pengguna untuk menjaga pengguna tetap terlibat dan puas.