#OFN Ключові поняття максимізації винагород
Взаємодія агента та середовища:
AI-система (агент) взаємодіє зі своїм середовищем, отримуючи зворотний зв'язок у формі винагород за свої дії.
Приклад у
#OpenfabricA I: Торговий бот на фінансовому ринку виконує дії (купівля, продаж, утримання) і отримує прибутки або збитки як винагороди.
Функція винагороди:
Функція, яка відображає кожну дію, виконану в даному стані, на числову винагороду.
Приклад: У системі рекомендацій винагорода може бути призначена залежно від того, чи клацне користувач на запропонований елемент або здійснить покупку.
Кумулятивна винагорода:
Мета полягає не в максимізації негайних винагород, а в загальній очікуваній винагороді з часом.
Формула:
�
�
=
�
�
+
1
+
�
�
�
+
2
+
�
2
�
�
+
3
+
…
G
t
=R
t+1
+γR
t+2
+γ
2
R
t+3
+…
G_t є загальною винагородою, починаючи з кроку часу t,
γ (гамма) є коефіцієнтом дисконту, що контролює важливість майбутніх винагород.
Політика (π):
Стратегія, яка визначає дії, які потрібно виконати в кожному стані для максимізації винагород.
Приклад: Політика чат-бота визначає, як реагувати на запити користувачів, щоб утримувати їх зацікавленими та задоволеними.