Selon une nouvelle étude, les grands modèles de langage (LLM) formés sur des itérations précédentes de matériel généré par l'IA produisent des résultats qui manquent de substance et de nuances. Les résultats présentent un nouveau défi pour les développeurs d’IA, qui s’appuient sur des ensembles limités de données générées par l’homme pour leur contenu.

A lire aussi : Les deepfakes de l'IA rendent difficile aux autorités américaines de protéger les enfants – rapport

Des chercheurs en intelligence artificielle de l’Université de Cambridge et de l’Université d’Oxford au Royaume-Uni ont tenté d’écrire des invites en s’appuyant sur un ensemble de données comprenant uniquement du contenu généré par l’IA. Le résultat n’a pas été idéal car il a suscité des réactions incompréhensibles.

L’IA a encore besoin des humains pour avoir un sens

L'un des auteurs de l'article, Zhakar Shumaylov de l'Université de Cambridge, a déclaré qu'il était nécessaire de contrôler la qualité des données qui alimentent les LLM, la technologie derrière les chatbots génératifs d'IA comme ChatGPT et Gemini de Google. Choumaïlov a dit :

« Le message est que nous devons faire très attention à ce qui se retrouve dans nos données d’entraînement. [Sinon,] les choses iront toujours, de manière prouvée, mal ».

Le phénomène est connu sous le nom d’« effondrement du modèle », a détaillé Shumaylov. Il a été prouvé qu’il affecte toutes sortes de modèles d’intelligence artificielle, y compris ceux spécialisés dans la génération d’images à l’aide d’invites textuelles.

Selon l’étude, la répétition d’invites textuelles utilisant des données générées par l’IA sur un modèle a fini par générer du charabia. Par exemple, les chercheurs ont découvert qu’un système testé avec un texte sur les clochers médiévaux du Royaume-Uni produisait une liste répétitive de lièvres après seulement neuf générations.

Commentant les résultats, Hany Farid, informaticien de l’Université de Californie, a comparé l’effondrement des données aux défis endémiques de la consanguinité animale.

"Si une espèce se reproduit avec sa propre progéniture et ne diversifie pas son pool génétique, cela peut conduire à son effondrement", a déclaré Farid.

Lorsque les chercheurs ont intégré des données générées par l’homme dans les données de l’IA, l’effondrement s’est produit plus lentement que lorsqu’ils fonctionnaient sur du contenu purement généré par l’IA.

Les modèles d’IA produisent du charabia lorsqu’ils sont formés sur des données générées par l’IA. Chercheurs : l’IA pourrait aggraver les préjugés contre les groupes minoritaires

Les modèles linguistiques fonctionnent en établissant des associations entre des jetons (mots ou parties de mots) dans de vastes pans de texte, souvent récupérés sur Internet. Ils génèrent du texte en crachant le mot suivant statistiquement le plus probable, sur la base de ces modèles appris.

A lire aussi : Poe, l'ours en peluche alimenté par ChatGPT, lit des histoires aux enfants avant d'aller au lit

L'étude, publiée dans la revue Nature le 24 juillet, a montré que les informations mentionnées à plusieurs reprises dans les ensembles de données sont susceptibles de ne pas être répétées. Les chercheurs craignent que cela puisse avoir un impact négatif sur les groupes minoritaires déjà marginalisés.

Pour éviter l’effondrement du modèle dans des cas d’utilisation réels, l’étude suggère de filigraner le contenu généré par l’IA et le contenu généré par l’homme. Mais cela pourrait également poser problème en raison d’un manque de coordination entre les sociétés d’IA rivales, ajoute-t-il.

Les conclusions de l’étude surviennent à un moment où le débat s’intensifie sur la question de savoir si l’IA entraînera l’exclusion totale des humains dans la création de contenu, y compris l’écriture de romans et d’articles de journaux.

Intitulé « Les modèles d’IA s’effondrent lorsqu’ils sont entraînés sur des données générées de manière récursive », les résultats de l’étude mettent un terme à ce débat – les humains ne sont pas encore retirés de l’équation.