Strategia składa się z formy Deep Q-Learning (DQN), która jest techniką uczenia się przez wzmacnianie stosowaną do podejmowania decyzji w oparciu o interakcję z otoczeniem. W tym przypadku środowiskiem są zwroty z dwóch aktywów kryptograficznych, a decyzje dotyczą tego, czy zająć pozycję długą (kupno), czy krótką (sprzedaż) w tych aktywach.
Podstawowe kroki strategii:
Inicjalizacja:
Tworzona jest główna sieć neuronowa w celu przewidywania wartości Q, które wskazują jakość działań w danym stanie.
Tworzona jest docelowa sieć neuronowa, która jest okresowo aktualizowana w celu stabilizacji uczenia się.
Eksploracja vs. Eksploatacja:
Na początku wybierane są losowe działania mające na celu eksplorację otoczenia.
W miarę upływu czasu wybiera się coraz więcej działań opartych na sieci neuronowej, aby wykorzystać zdobytą wiedzę.
Interakcja ze środowiskiem:
Agent (Twój model) podejmuje akcję w środowisku i otrzymuje nagrodę w zależności od podjętej akcji i osiągniętego nowego stanu.
Informacje te (stan, akcja, nagroda, nowy stan) są przechowywane w pamięci doświadczenia.
Szkolenie:
Regularnie pobierane są losowe próbki z pamięci doświadczeń i wykorzystywane do uczenia głównej sieci neuronowej.
Docelowa sieć neuronowa jest okresowo aktualizowana w celu odzwierciedlenia wag sieci głównej.
Aktualizacja zasad:
Polityka agenta (strategia handlowa) jest stale dostosowywana w oparciu o uczenie się sieci neuronowej.
Czy chcesz wiedzieć, jak wdrożyć tę i inne strategie handlowe w swoim handlu, śledź mnie, aby uzyskać więcej treści