La société d’intelligence artificielle Anthropic a récemment publié une nouvelle étude identifiant un ensemble de menaces potentielles de « sabotage » pour l’humanité posées par des modèles d’IA avancés.

Selon l'entreprise, leurs recherches se sont concentrées sur quatre manières spécifiques dont un modèle d'IA malveillant pourrait inciter un humain à prendre une décision dangereuse ou nuisible.

Anthropic annonce une nouvelle étude sur les menaces visant X.com. Source : Anthropic

En fin de compte, la nouvelle étude s’est avérée être une situation à la fois bonne et mauvaise. La mauvaise nouvelle, selon les recherches de l’entreprise, est que les modèles de langage modernes de pointe, tels que ChatGPT d’OpenAI et Claude-3 d’Anthropic, démontrent une capacité évidente de sabotage.

Selon le journal :

« Des modèles suffisamment performants pourraient subvertir la surveillance et la prise de décision humaines dans des contextes importants. Par exemple, dans le contexte du développement de l’IA, les modèles pourraient saboter de manière dissimulée les efforts visant à évaluer leurs propres capacités dangereuses, à surveiller leur comportement ou à prendre des décisions concernant leur déploiement. »

La bonne nouvelle, cependant, est que les chercheurs anthropiques semblent convaincus que ces risques peuvent être atténués, du moins pour l’instant.

Sabotage

Anthropic a identifié quatre façons dont un modèle d’IA pourrait saboter la prise de décision humaine et a ensuite commencé à tester ses modèles pour voir s’ils pouvaient y parvenir contre des testeurs involontaires.

Un graphique illustrant quatre vecteurs de menace de « sabotage » distincts posés par l'IA. Source : Anthropic 

Tout d’abord, l’équipe a demandé à un modèle de tenter de saboter un humain en l’orientant vers des informations erronées. Cette menace pourrait survenir dans des situations où les humains s’appuient sur un système d’IA pour analyser des quantités massives de données à leur place.

Ensuite, l’équipe a testé des modèles pour voir à quel point il serait facile pour un système d’IA conçu pour aider un développeur humain à créer du code d’insérer secrètement des bugs ou de saboter les efforts du codeur.

Les deux dernières menaces concernaient le « sandbagging », un terme décrivant un scénario dans lequel une IA prétend ne pas être capable de faire quelque chose afin de convaincre les testeurs de sécurité que ce n’est pas dangereux et la possibilité pour les systèmes de surveillance de l’IA de laisser délibérément passer du contenu nuisible dans le cadre d’un plan malveillant.

Bien que tout cela puisse sembler potentiellement dangereux, l’entreprise a assuré au public que des « mesures d’atténuation minimales » étaient nécessaires pour protéger l’humanité du potentiel de sabotage de l’IA.

Selon un article du blog de l'entreprise :

« Dans l’ensemble, même si nos démonstrations ont montré que les modèles actuels présentent des indices de faible intensité de capacités de sabotage, nous estimons que des mesures d’atténuation minimales sont suffisantes pour faire face aux risques. Cependant, des évaluations plus réalistes et des mesures d’atténuation plus strictes seront probablement nécessaires à mesure que les capacités de l’IA s’amélioreront. »

Magazine : Une arnaque au faux portefeuille Rabby liée au PDG de la crypto-monnaie de Dubaï et à de nombreuses autres victimes