該策略由深度 Q 學習 (DQN) 的一種形式組成,它是一種強化學習技術,用於根據與環境的交互做出決策。在這種情況下,環境是兩種加密資產的回報,決策是在這些資產中做多(買入)還是做空(賣出)頭寸。
該策略的基本步驟:
初始化:
創建一個主神經網絡來預測 Q 值,該值指示給定狀態下的動作質量。
創建目標神經網絡並定期更新以穩定學習。
探索對比開發:
首先,選擇隨機動作來探索環境。
隨着時間的推移,更多基於神經網絡的動作被選擇來利用所獲得的知識。
與環境的互動:
代理(您的模型)在環境中採取行動,並根據所採取的行動和達到的新狀態獲得獎勵。
該信息(狀態、動作、獎勵、新狀態)存儲在體驗記憶中。
訓練:
定期從經驗記憶中抽取隨機樣本並用於訓練主神經網絡。
目標神經網絡定期更新以反映主網絡的權重。
政策更新:
代理的策略(交易策略)根據神經網絡的學習不斷調整。
您想知道如何在您的交易中實施此交易策略以及其他交易策略嗎,關注我以獲取更多內容