Selon Cointelegraph, une équipe de scientifiques de l'Université de Caroline du Nord à Chapel Hill, a récemment publié une recherche pré-imprimée sur l'intelligence artificielle (IA) qui met en évidence la difficulté de supprimer les données sensibles des grands modèles de langage (LLM) comme ChatGPT d'OpenAI et Bard de Google. . Les chercheurs ont découvert que même s’il est possible de supprimer des informations des LLM, vérifier que les informations ont été supprimées est tout aussi difficile que le processus de suppression lui-même.
Cette difficulté vient de la manière dont les LLM sont conçus et formés. Ils sont pré-formés sur des bases de données puis affinés pour générer des résultats cohérents. Une fois qu'un modèle est formé, ses créateurs ne peuvent pas revenir dans la base de données et supprimer des fichiers spécifiques pour empêcher le modèle de produire des résultats associés. C’est la « boîte noire » de l’IA. Des problèmes surviennent lorsque les LLM formés sur des ensembles de données massifs produisent des informations sensibles, telles que des informations personnelles identifiables ou des dossiers financiers.
Pour résoudre ce problème, les développeurs d'IA utilisent des garde-fous, tels que des invites codées en dur qui inhibent des comportements spécifiques ou l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF). Cependant, les chercheurs de l'UNC soutiennent que cette méthode repose sur la découverte par les humains de tous les défauts qu'un modèle pourrait présenter et que, même en cas de succès, elle ne « supprime » toujours pas les informations du modèle. Les chercheurs ont conclu que même les méthodes d'édition de modèles de pointe, telles que Rank-One Model Editing (ROME), ne parviennent pas à supprimer complètement les informations factuelles des LLM, car les faits peuvent encore être extraits 38 % du temps par des attaques de type boîte blanche. et 29 % du temps par des attaques de type boîte noire.
Les chercheurs ont pu développer de nouvelles méthodes de défense pour protéger les LLM contre certaines « attaques d’extraction » – des tentatives délibérées de la part de mauvais acteurs d’utiliser des invites pour contourner les garde-fous d’un modèle afin de lui faire produire des informations sensibles. Cependant, ils ont noté que le problème de la suppression des informations sensibles pourrait être un problème dans lequel les méthodes de défense sont toujours en train de rattraper les nouvelles méthodes d'attaque.