Les modèles d'intelligence artificielle (IA) possèdent certaines capacités longtemps avant de les exhiber durant l'entraînement, a montré une nouvelle recherche. Selon la recherche réalisée par Havard et l'Université du Michigan, les modèles ne montrent pas ces compétences tant qu'ils n'en ont pas besoin d'une manière ou d'une autre.

La recherche est l'une des nombreuses qui ont été menées pour comprendre comment les modèles d'IA construisent leurs capacités avant de les montrer.

L'étude a analysé comment les modèles d'IA apprennent des concepts de base tels que la taille et la couleur, révélant qu'ils maîtrisent ces compétences plus tôt que ne le suggèrent la plupart des tests. L'étude a également fourni un aperçu de la complexité de la mesure des capacités d'une IA. « Un modèle peut sembler incompétent lorsqu'on lui donne des invites standard tout en possédant en réalité des capacités sophistiquées qui n'émergent que dans des conditions spécifiques », indique le document.

La recherche montre que les modèles d'IA intègrent des concepts

Havard et l'Université du Michigan ne sont pas les premiers à tenter de comprendre les capacités des modèles d'IA, des chercheurs d'Anthropic ayant dévoilé un document intitulé 'apprentissage de dictionnaire'. Le document discutait de la cartographie des connexions dans leur langue Claude à des concepts spécifiques qu'elle comprend. Bien que la plupart de ces recherches aient pris différentes approches, il s'agit principalement de comprendre les modèles d'IA.

Anthropic a révélé avoir trouvé des caractéristiques pouvant être liées à différents concepts interprétables. « Nous avons trouvé des millions de caractéristiques qui semblent correspondre à des concepts interprétables allant d'objets concrets comme des personnes, des pays et des bâtiments célèbres à des idées abstraites comme les émotions, les styles d'écriture et les étapes de raisonnement », a révélé la recherche.

Au cours de sa recherche, les chercheurs ont réalisé plusieurs expériences utilisant le modèle de diffusion, l'une des architectures les plus populaires pour l'IA. Pendant l'expérience, ils ont réalisé que les modèles avaient des façons distinctes de manipuler des concepts de base. Les schémas étaient cohérents alors que les modèles d'IA montraient de nouvelles capacités à différentes phases et un point de transition net signalant quand une nouvelle capacité est acquise.

Au cours de l'entraînement, les modèles ont montré qu'ils avaient maîtrisé des concepts environ 2 000 étapes plus tôt que ce qu'un test standard détecterait. Des concepts forts sont apparus autour de 6 000 étapes et des concepts plus faibles étaient visibles autour de 20 000 étapes. Après que les signaux des concepts ont été ajustés, ils ont découvert une corrélation directe avec la vitesse d'apprentissage.

Les chercheurs révèlent des méthodes pour accéder à des capacités cachées

Les chercheurs ont utilisé des méthodes d'invitation alternatives pour révéler des capacités cachées avant qu'elles ne soient exhibées dans des tests standards. La nature galopante de l'émergence cachée a des effets sur l'évaluation et la sécurité de l'IA. Par exemple, les benchmarks traditionnels peuvent passer à côté de certaines capacités des modèles d'IA, manquant ainsi à la fois les bénéfices et les préoccupations.

Au cours de la recherche, l'équipe a découvert certaines méthodes pour accéder aux capacités cachées des modèles d'IA. La recherche a désigné ces méthodes comme des interventions latentes linéaires et un sur-invite, car les chercheurs ont fait exhiber aux modèles des comportements complexes avant qu'ils ne se manifestent dans des tests standard. Les chercheurs ont également découvert que les modèles d'IA manipulaient certaines caractéristiques complexes avant de pouvoir les montrer à travers des invites standard.

Par exemple, les modèles pouvaient être invités à générer avec succès 'des femmes souriantes' ou 'des hommes portant des chapeaux' avant d'être invités à les combiner. Cependant, la recherche a montré qu'ils avaient appris à les combiner plus tôt, mais ne pourraient pas le montrer à travers des invites conventionnelles. Les modèles montrant des capacités peuvent être qualifiés de grokking, une situation où les modèles affichent une performance parfaite au test après un entraînement prolongé. Cependant, les chercheurs ont déclaré qu'il existe des différences clés entre les deux.

Bien que le grokking se produise après plusieurs sessions d'entraînement et implique le raffinement de plusieurs distributions des mêmes ensembles de données, la recherche montre que ces capacités émergent pendant l'apprentissage actif. Les chercheurs ont noté que les modèles ont trouvé de nouvelles façons de manipuler des concepts par changement de phases plutôt que par des améliorations progressives de la représentation dans le grokking.

Selon la recherche, cela montre que les modèles d'IA connaissent ces concepts, ils ne peuvent tout simplement pas les montrer. C'est similaire à des personnes regardant et comprenant un film étranger mais ne pouvant pas parler la langue. Cela montre que la plupart des modèles ont plus de capacités que ce qu'ils montrent, et cela souligne également la difficulté de comprendre et de contrôler leurs capacités.

De Zéro à Pro Web3 : Votre plan de lancement de carrière de 90 jours