Selon les chercheurs de Meta, la formation de modèles de langage pour prédire plusieurs jetons à la fois entraîne une meilleure efficacité des échantillons.

Les grands modèles de langage comme Llama et ChatGPT sont généralement entraînés pour la prochaine prédiction de jeton, mais avec cette nouvelle approche, de meilleures performances peuvent être obtenues.

Qu'est-ce que la technique de prédiction de jeton unique ?

La technique de prédiction multi-jetons offre un avantage significatif dans certains scénarios avec une vitesse trois fois supérieure aux tâches génératives, mais elle ne constitue toujours pas une solution universelle pour chaque type de modèle. La technique peut encore être améliorée et, pour certaines applications LLM, elle peut devenir un outil robuste.

Pour une compréhension plus claire, on peut dire que le processus traditionnel de formation LLM utilise une approche appelée « prédiction du prochain jeton », et de cette manière, un modèle prédit uniquement le prochain jeton futur dans une séquence donnée.

Dans un processus automatisé, le jeton prédit est ajouté à l'entrée, et le processus est répété encore et encore sur l'intégralité de l'entrée de texte fournie afin que le modèle apprenne les modèles communs et développe la capacité de produire une sortie composée de éléments logiques et cohérents. texte.

Cette technique présente certains inconvénients, car en traitant uniquement le jeton suivant, le modèle se concentre trop sur les modèles locaux dans le texte et ignore les prédictions qui ne peuvent être faites qu'avec un raisonnement.

Un autre problème de cette technique est qu’elle nécessite d’introduire d’énormes quantités d’ensembles de données dans le modèle pour atteindre le flux normal de sortie linguistique que les humains peuvent produire avec très peu de texte.

La prédiction multi-jetons permet une vitesse 3X

Source : Méta.

Dans la nouvelle approche multi-jetons suggérée par Meta, le LLM est chargé de prédire plusieurs jetons provenant de différentes positions en même temps dans le processus de formation. Les chercheurs ont utilisé une architecture de prédiction simple pour la prédiction multi-jetons qui ne nécessite pas de ressources supplémentaires telles que le traitement du temps et de la mémoire.

Les chercheurs ont utilisé la même architecture Transformer que celle déjà utilisée par la plupart des LLM, mais ils ont apporté quelques modifications pour prendre en charge la prédiction de plusieurs jetons en augmentant ses têtes de sortie de simple à plusieurs et en en attribuant une à chaque jeton.

De cette façon, pour tirer des conclusions et faire des prédictions, le modèle utilise la même stratégie de base de prédiction suivante, mais en utilisant plusieurs têtes, il peut accélérer le processus. L'étude de recherche dit :

"Bien que simple et gratuite, la prédiction multi-jetons constitue une modification efficace pour former des modèles de transformateurs plus puissants et plus rapides."

Source : Méta.

Les chercheurs ont découvert au cours de l’étude que la technique produisait des résultats médiocres lorsqu’ils l’utilisaient sur des modèles plus petits, mais que les résultats devenaient meilleurs que la moyenne lorsqu’ils appliquaient le même processus à des modèles plus grands, et les résultats continuaient de s’améliorer avec la taille du modèle.  Comme l'écrit l'étude,

«La méthode est de plus en plus utile pour les modèles de plus grande taille et conserve son attrait lors de l'entraînement sur plusieurs époques. Les gains sont particulièrement prononcés sur les benchmarks génératifs comme le codage, où nos modèles surpassent systématiquement les références solides de plusieurs points de pourcentage.

Source : Méta.

Les chercheurs ont également déclaré que la technique de prédiction multi-jetons rend également le modèle trois fois plus rapide à produire des résultats logiques, ce qui est utile avec l'avantage de ne coûter que très peu ou pas du tout.