Künstliche Intelligenz (KI)-Modelle besitzen einige Fähigkeiten lange bevor sie diese während des Trainings zeigen, hat eine neue Forschung gezeigt. Laut der Forschung, die von Havard und der Universität von Michigan durchgeführt wurde, zeigen die Modelle diese Fähigkeiten erst, wenn sie sie auf die ein oder andere Weise benötigen.
Die Forschung ist eine von vielen, die durchgeführt wurden, um zu verstehen, wie KI-Modelle ihre Fähigkeiten aufbauen, bevor sie sie demonstrieren.
Die Studie analysierte, wie KI-Modelle grundlegende Konzepte wie Größe und Farbe lernen, und zeigte, dass sie die Fähigkeiten früher meistern, als die meisten Tests vermuten. Die Studie lieferte auch Einblicke in die Komplexität der Messung der Fähigkeiten einer KI. "Ein Modell könnte inkompetent erscheinen, wenn es mit Standardaufforderungen konfrontiert wird, während es tatsächlich über ausgeklügelte Fähigkeiten verfügt, die nur unter bestimmten Bedingungen zum Vorschein kommen", heißt es in dem Papier.
Forschung zeigt, dass KI-Modelle Konzepte internalisieren
Havard und die Universität von Michigan sind nicht die ersten, die versuchen, die Fähigkeiten von KI-Modellen zu verstehen, da Forscher von Anthropic ein Papier mit dem Titel 'Wörterbuchlernen' veröffentlicht haben. Das Papier diskutierte, wie Verbindungen in ihrer Claude-Sprache zu spezifischen Konzepten, die sie versteht, kartiert werden können. Obwohl die meisten dieser Forschungen unterschiedliche Ansätze verfolgten, zielen sie hauptsächlich darauf ab, die KI-Modelle zu verstehen.
Anthropic enthüllte, dass es Merkmale gefunden hat, die mit verschiedenen interpretierbaren Konzepten verbunden sein könnten. "Wir fanden Millionen von Merkmalen, die anscheinend mit interpretierbaren Konzepten von konkreten Objekten wie Menschen, Ländern und berühmten Gebäuden bis hin zu abstrakten Ideen wie Emotionen, Schreibstilen und Denkprozessen korrespondieren", enthüllte die Forschung.
Während ihrer Forschung führten die Forscher mehrere Experimente mit dem Diffusionsmodell durch, einer der beliebtesten Architekturen für KI. Während des Experiments stellten sie fest, dass die Modelle unterschiedliche Möglichkeiten hatten, grundlegende Konzepte zu manipulieren. Die Muster waren konsistent, da die KI-Modelle in verschiedenen Phasen neue Fähigkeiten zeigten und ein scharfer Übergangspunkt signalisiert wurde, wann eine neue Fähigkeit erworben wird.
Während des Trainings zeigten die Modelle, dass sie Konzepte etwa 2.000 Schritte früher beherrschten, als ein Standardtest es erkennen würde. Starke Konzepte erschienen nach etwa 6.000 Schritten, während schwächere etwa nach 20.000 Schritten sichtbar waren. Nachdem die Signalsignale für die Konzepte angepasst wurden, entdeckten sie eine direkte Korrelation mit der Lerngeschwindigkeit.
Forscher enthüllen Methoden, um verborgene Fähigkeiten zuzugreifen
Die Forscher verwendeten alternative Aufforderungsmethoden, um verborgene Fähigkeiten aufzudecken, bevor sie in Standardtests gezeigt wurden. Die rampant Natur der verborgenen Emergenz hat Auswirkungen auf die Bewertung und Sicherheit von KI. Zum Beispiel könnten traditionelle Benchmarks bestimmte Fähigkeiten der KI-Modelle übersehen und damit sowohl die nützlichen als auch die besorgniserregenden.
Während der Forschung fand das Team bestimmte Methoden, um auf die verborgenen Fähigkeiten der KI-Modelle zuzugreifen. Die Forschung bezeichnete die Methoden als lineare latente Intervention und Überaufforderung, da die Forscher die Modelle dazu brachten, komplexe Verhaltensweisen zu zeigen, bevor sie in Standardtests sichtbar wurden. Die Forscher entdeckten auch, dass die KI-Modelle bestimmte komplexe Merkmale manipulierend, bevor sie diese durch Standardaufforderungen zeigen konnten.
Zum Beispiel konnten die Modelle erfolgreich aufgefordert werden, 'lächelnde Frauen' oder 'Männer mit Hüten' zu generieren, bevor sie gebeten wurden, diese zu kombinieren. Die Forschung zeigte jedoch, dass sie gelernt haben, dies früher zu kombinieren, aber nicht in der Lage sein werden, dies durch konventionelle Aufforderungen zu zeigen. Die Modelle, die Fähigkeiten zeigen, können als grokking bezeichnet werden, eine Situation, in der Modelle nach längerer Ausbildung eine perfekte Testleistung zeigen. Die Forscher sagten jedoch, dass es wesentliche Unterschiede zwischen beiden gibt.
Während grokking nach mehreren Trainingssitzungen geschieht und mehrere Verteilungen derselben Datensätze verfeinert, zeigt die Forschung, dass diese Fähigkeiten während des aktiven Lernens auftreten. Die Forscher stellten fest, dass die Modelle neue Wege fanden, Konzepte durch Veränderungen in Phasen zu manipulieren, anstatt durch allmähliche Verbesserungen der Repräsentation im Grokking.
Laut der Forschung zeigt es, dass KI-Modelle diese Konzepte kennen, sie jedoch nicht in der Lage sind, sie zu demonstrieren. Es ist ähnlich wie bei Menschen, die einen ausländischen Film ansehen und verstehen, aber die Sprache nicht sprechen können. Dies zeigt, dass die meisten Modelle mehr Fähigkeiten haben, als sie zeigen, und es zeigt auch die Schwierigkeit, ihre Fähigkeiten zu verstehen und zu kontrollieren.
Von Null zu Web3 Pro: Ihr 90-Tage-Karriere-Startplan