Le processus de traitement du langage basé sur des « jetons » du modèle d’IA de nouvelle génération révèle de nombreuses limites, posant un obstacle majeur au développement de ce domaine.

Les modèles d'IA générative, allant du Gemma compact au GPT-4 avancé, sont basés sur une architecture de transformateur. Au lieu de traiter du texte brut comme les humains, les transformateurs fonctionnent en codant les données dans des unités plus petites appelées « jetons ». Les jetons peuvent être des mots, des syllabes ou même des caractères individuels. Ce processus, appelé tokenisation, permet à l’IA de recevoir des informations plus efficacement, mais crée en même temps de nombreuses limitations.

L’un des principaux défis est le manque de cohérence dans la manière dont les jetons sont gérés. Par exemple, le modèle peut analyser "il était une fois" en "une fois", "il était", "a", "temps", tandis que "il était une fois" (avec un espace à la fin) est interprété comme "une fois". , "sur un", " ". Cela rend difficile pour le modèle de comprendre le contexte et le véritable sens de la phrase, ce qui conduit à des résultats inexacts.

De plus, la distinction entre les lettres majuscules et minuscules fait également une différence significative. Concernant le modèle, « Bonjour » et « HELLO » peuvent être compris comme deux concepts complètement différents. C’est cette ambiguïté dans la manière dont les jetons sont codés qui fait que de nombreux modèles d’IA échouent aux tests de capitalisation simples.

Selon Sheridan Feucht, doctorante à la Northeastern University, il n’existe pas de « symbole parfait ». Le langage lui-même contient intrinsèquement de nombreux éléments complexes, et déterminer quelle est l’unité sémantique optimale pour le codage reste un problème difficile.

Le problème devient encore pire lorsque l’on considère des langues autres que l’anglais. De nombreuses méthodes d'encodage actuelles utilisent par défaut des espaces comme séparateurs de mots, mais cela ne convient pas aux langues telles que le chinois, le japonais, le coréen, etc. Selon une étude de 2023 de l'Université d'Oxford, un encodage de langue inefficace peut entraîner un modèle d'IA à prendre deux fois autant de temps pour traiter une tâche par rapport à l'anglais.

Les utilisateurs utilisant ces langages « inefficaces en termes de jetons » sont également susceptibles d’être confrontés à des performances d’IA moins bonnes et à des coûts d’utilisation plus élevés, car de nombreux fournisseurs facturent en fonction du nombre de jetons.

Une recherche menée la même année 2023 par Yennie Jun, chercheuse en IA chez Google DeepMind, a également montré que certaines langues ont besoin de 10 fois plus de jetons que l'anglais pour transmettre le même sens. Cela montre clairement l'inégalité linguistique dans le domaine de l'IA.

En outre, la tokenisation serait également la raison pour laquelle les modèles d’IA actuels ont des difficultés à traiter les mathématiques. Sans vraiment comprendre les nombres, le tokeniseur peut considérer « 380 » comme un jeton, mais représenter « 381 » comme une paire (« 38 » et « 1 »), détruisant la relation entre les chiffres et conduisant à une confusion pour le transformateur.

Un codage incohérent des nombres rend difficile pour le modèle de saisir les relations entre les chiffres dans les équations et les formules mathématiques.

Nous verrons que de nombreux comportements étranges et problèmes des LLM remontent en réalité à la tokenisation. Nous passerons en revue un certain nombre de ces problèmes, expliquerons pourquoi la tokenisation est en cause et pourquoi quelqu'un trouverait idéalement un moyen de supprimer complètement cette étape. pic.twitter.com/5haV7FvbBx

– Andrej Karpathy (@karpathy) 20 février 2024

Malgré les nombreux défis, les scientifiques recherchent activement des solutions possibles. Les modèles d'espace d'état « au niveau octet » tels que MambaByte, qui est capable de traiter directement les données brutes sous forme d'octets, montrent un potentiel exceptionnel pour gérer le « bruit » linguistique et une analyse de texte efficace. Cependant, MambaByte et les modèles similaires en sont encore aux premiers stades de recherche.

Selon Sheridan Feucht, « l'élimination complète de la tokenisation est une voie possible, mais elle est actuellement impossible sur le plan informatique pour les transformateurs. »

L’émergence de nouvelles architectures de modèles pourrait être la clé d’une avancée décisive dans le problème de la tokenisation. Dans l’immédiat, les chercheurs continuent de rechercher des solutions pour optimiser la tokenisation pour différentes langues, en visant un avenir où l’IA pourra comprendre et traiter le langage de manière naturelle et efficace.