該策略由深度 Q 學習 (DQN) 的一種形式組成,它是一種強化學習技術,用於根據與環境的交互做出決策。在這種情況下,環境是兩種加密資產的回報,決策是在這些資產中做多(買入)還是做空(賣出)頭寸。

該策略的基本步驟:

  1. 初始化:

    • 創建一個主神經網絡來預測 Q 值,該值指示給定狀態下的動作質量。

    • 創建目標神經網絡並定期更新以穩定學習。

  2. 探索對比開發:

    • 首先,選擇隨機動作來探索環境。

    • 隨着時間的推移,更多基於神經網絡的動作被選擇來利用所獲得的知識。

  3. 與環境的互動:

    • 代理(您的模型)在環境中採取行動,並根據所採取的行動和達到的新狀態獲得獎勵。

    • 該信息(狀態、動作、獎勵、新狀態)存儲在體驗記憶中。

  4. 訓練:

    • 定期從經驗記憶中抽取隨機樣本並用於訓練主神經網絡。

    • 目標神經網絡定期更新以反映主網絡的權重。

  5. 政策更新:

    • 代理的策略(交易策略)根據神經網絡的學習不斷調整。

您想知道如何在您的交易中實施此交易策略以及其他交易策略嗎,關注我以獲取更多內容

$BTC $ETH $BNB