Eine neue Studie hat ergeben, dass große Sprachmodelle (LLMs), die anhand vorheriger Iterationen von KI-generiertem Material trainiert wurden, Ergebnisse liefern, denen es an Substanz und Nuancen mangelt. Die Ergebnisse stellen eine neue Herausforderung für KI-Entwickler dar, die für ihre Inhalte auf begrenzte, von Menschen generierte Datensätze angewiesen sind.

Lesen Sie auch: Bericht: KI-Deepfakes erschweren US-Behörden den Schutz von Kindern

Künstliche Intelligenzforscher der Universitäten Cambridge und Oxford im Vereinigten Königreich versuchten, Aufforderungen zu verfassen, die sich auf einen Datensatz stützten, der ausschließlich aus KI-generierten Inhalten bestand. Das Ergebnis war nicht optimal, da es unverständliche Antworten produzierte.

Um KI Sinn zu ergeben, sind immer noch Menschen erforderlich

Einer der Autoren des Papiers, Zhakar Shumaylov von der Universität Cambridge, sagte, es bestehe Bedarf an einer Qualitätskontrolle der Daten, die LLMs speisen, der Technologie hinter generativen KI-Chatbots wie ChatGPT und Googles Gemini. Shumaylov sagte:

„Die Botschaft ist, dass wir sehr vorsichtig sein müssen, was in unseren Trainingsdaten landet. [Ansonsten] wird nachweislich immer etwas schiefgehen.“

Das Phänomen ist als „Modellkollaps“ bekannt, erläuterte Shumaylov. Es ist erwiesen, dass es alle Arten von Modellen künstlicher Intelligenz betrifft, einschließlich solcher, die auf die Bildgenerierung mithilfe von Texteingabeaufforderungen spezialisiert sind.

Laut der Studie führten wiederholte Textaufforderungen mit KI-generierten Daten in einem Modell letztendlich zu Kauderwelsch. So stellten die Forscher beispielsweise fest, dass ein System, das mit Texten über die mittelalterlichen Kirchtürme Großbritanniens getestet wurde, bereits nach neun Generationen eine sich wiederholende Liste von Hasen produzierte.

Der Informatiker Hany Farid von der University of California kommentierte die Ergebnisse und verglich den Dateneinbruch mit den Problemen, die der Inzucht bei Tieren innewohnen.

„Wenn sich eine Art mit ihren eigenen Nachkommen kreuzt und ihren Genpool nicht diversifiziert, kann das zum Zusammenbruch der Art führen“, sagte Farid.

Als die Forscher die KI-Daten mit von Menschen generierten Daten verknüpften, erfolgte der Zusammenbruch langsamer, als wenn der Prozess auf rein KI-generierten Inhalten basierte.

KI-Modelle produzieren Kauderwelsch, wenn sie mit KI-generierten Daten trainiert werden. Forscher: KI könnte Vorurteile gegenüber Minderheitengruppen verschlimmern

Sprachmodelle funktionieren, indem sie Assoziationen zwischen Token – Wörtern oder Wortteilen – in riesigen Textmengen aufbauen, die oft aus dem Internet stammen. Sie generieren Text, indem sie auf der Grundlage dieser erlernten Muster das statistisch wahrscheinlichste nächste Wort ausspucken.

Lesen Sie auch: ChatGPT-betriebener Teddybär Poe liest Kindern Gutenachtgeschichten vor

Die Studie, die am 24. Juli in der Zeitschrift Nature veröffentlicht wurde, zeigte, dass Informationen, die in Datensätzen nur wenige Male erwähnt werden, wahrscheinlich nicht wiederholt werden. Die Forscher befürchten, dass sich dies negativ auf bereits marginalisierte Minderheitengruppen auswirken könnte.

Um den Zusammenbruch des Modells in realen Anwendungsfällen abzuwenden, schlug die Studie vor, KI-generierte und von Menschen erstellte Inhalte mit Wasserzeichen zu versehen. Dies könne jedoch aufgrund mangelnder Koordination zwischen konkurrierenden KI-Unternehmen auch problematisch sein, hieß es.

Die Ergebnisse der Studie fallen in eine Zeit, in der zunehmend darüber diskutiert wird, ob künstliche Intelligenz dazu führen wird, dass der Mensch bei der Erstellung von Inhalten – auch beim Verfassen von Romanen und Zeitungsartikeln – völlig außer Acht gelassen wird.

Die Ergebnisse der Studie mit dem Titel „KI-Modelle brechen zusammen, wenn sie mit rekursiv generierten Daten trainiert werden“ beenden diese Debatte – der Mensch ist noch nicht vorerst aus der Gleichung verschwunden.