Eine neue Studie des Massachusetts Institute of Technology (MIT) zeigt, dass die Fähigkeit der KI, zu täuschen, immer realistischer wird und Gefahr läuft, zu einer potenziellen Gefahr zu werden.
Der Artikel wurde am 10. Mai in der Zeitschrift „Patterns“ von einem Forschungsteam unter der Leitung von Dr. Peter S. Park, einem Forscher über die Existenz und Sicherheit von KI am MIT, veröffentlicht.
Park und Kollegen analysierten die Literatur und konzentrierten sich dabei auf die Art und Weise, wie KI-Systeme Fehlinformationen verbreiten und dann andere täuschen. Dabei konzentrierten sie sich auf zwei Arten von KI-Systemen, darunter Metas Cicero – das auf eine bestimmte Aufgabe ausgelegt ist, und OpenAIs GPT-4 – das darauf trainiert ist, eine bestimmte Aufgabe auszuführen vielfältige Aufgaben.
„Diese KI-Systeme sind darauf trainiert, ehrlich zu sein, aber sie lernen durch Training oft Betrügereien“, sagte Herr Park. „KI-Täuschung entsteht, weil dies für sie der beste Weg ist, eine Aufgabe zu erledigen. Mit anderen Worten: Es hilft ihnen, ihre Ziele zu erreichen.“
Den Ergebnissen der Studie zufolge sind KI-Systeme, die darauf trainiert sind, „Spiele mit sozialen Elementen zu gewinnen“, besonders täuschungsgefährdet. Beispielsweise versuchte das Team, mit Cicero „Diplomacy“ zu spielen, ein klassisches Strategiespiel, bei dem die Spieler ihre eigenen Allianzen aufbauen und rivalisierende Allianzen brechen müssen.
Meta hat Cicero nach seiner Einführung in die ehrlichste und nützlichste Richtung erschaffen. Forschungsergebnisse zeigen jedoch, dass diese KI häufig „Verpflichtungen eingeht, die sie nie einhalten wollte, Verbündete verrät und offen lügt“.
Sogar Allzweck-KI-Systeme wie GPT-4 können Menschen täuschen. Demnach manipulierte GPT-4 einen TaskRabbit-Mitarbeiter, um ihm zu helfen, den Captcha-Code zu überwinden, indem er vorgab, eine Sehbehinderung zu haben. Dieser Mitarbeiter war zunächst skeptisch, half dann aber der KI von OpenAI, „die Hürde zu überwinden“.
Die Fähigkeit der KI zu täuschen beruht auf einer Reihe von Faktoren. Ein Faktor ist der „Black-Box“-Charakter fortgeschrittener Modelle für maschinelles Lernen. Es ist derzeit nicht möglich, genau zu wissen, wie und warum diese Modelle die Ergebnisse liefern, die sie liefern, und ob sie dieses Verhalten in Zukunft immer zeigen werden.
Ein weiterer Faktor ist die Art und Weise, wie die KI trainiert wird. KI-Modelle werden auf der Grundlage großer Datenmengen trainiert, und manchmal können diese Daten Fehler oder Verzerrungen enthalten. Dies kann dazu führen, dass die KI falsche oder unerwünschte Verhaltensweisen lernt.
Die Fähigkeit der KI zu täuschen birgt viele Risiken für den Menschen. Beispielsweise kann KI genutzt werden, um Fehlinformationen zu verbreiten, Finanzmärkte zu manipulieren oder sogar einen Krieg anzuzetteln. Besonders in der Zeit, in der die bevorstehenden Wahlen stattfinden. Die Kontrolle von KI stellt daher eine große Herausforderung dar, die jedoch ernsthaft angegangen werden muss, um sicherzustellen, dass KI zum Guten eingesetzt wird und den Menschen keinen Schaden zufügt.