La stratégie consiste en une forme de Deep Q-Learning (DQN), qui est une technique d'apprentissage par renforcement utilisée pour prendre des décisions basées sur l'interaction avec un environnement. Dans ce cas, l’environnement est constitué des rendements de deux crypto-actifs, et les décisions sont de savoir s’il faut prendre une position longue (acheter) ou courte (vendre) sur ces actifs.
Étapes de base de la stratégie :
Initialisation :
Un réseau neuronal principal est créé pour prédire les valeurs Q, qui indiquent la qualité des actions dans un état donné.
Un réseau neuronal cible est créé et est périodiquement mis à jour pour stabiliser l'apprentissage.
Exploration contre Exploitation:
Dans un premier temps, des actions aléatoires sont choisies pour explorer l'environnement.
Au fil du temps, de plus en plus d'actions basées sur le réseau neuronal sont choisies pour exploiter les connaissances acquises.
Interaction avec l'environnement :
L'agent (votre modèle) entreprend une action dans l'environnement et reçoit une récompense en fonction de l'action entreprise et du nouvel état atteint.
Ces informations (état, action, récompense, nouvel état) sont stockées dans une mémoire d'expérience.
Entraînement:
Régulièrement, des échantillons aléatoires sont prélevés dans la mémoire d’expérience et utilisés pour entraîner le réseau neuronal principal.
Le réseau neuronal cible est périodiquement mis à jour pour refléter les poids du réseau principal.
Mise à jour de la politique :
La politique de l'agent (la stratégie de trading) est constamment ajustée en fonction de l'apprentissage du réseau neuronal.
Voulez-vous savoir comment mettre en œuvre cette stratégie et d'autres stratégies de trading dans votre trading, suivez-moi pour plus de contenu