Der Artikel ist eine Übersetzung aus: Baihua Blockchain
Autor: Rituals
Übersetzung: Baihua Blockchain
In den letzten Jahren ist die Bedeutung des Begriffs Agent (Agent) in mehreren Bereichen, einschließlich Philosophie, Spielen und künstlicher Intelligenz, gewachsen. Traditionell bezieht sich ein Agent auf ein Wesen, das autonom handeln, Entscheidungen treffen und Intentionen haben kann, Eigenschaften, die normalerweise mit Menschen verbunden sind.
Im Bereich der künstlichen Intelligenz wird der Begriff Agent komplexer. Mit dem Aufkommen autonomer Agenten können diese in der Umgebung beobachten, lernen und unabhängig handeln, sodass das zuvor abstrakte Konzept des Agenten in konkrete Formen von Rechensystemen überführt wird. Diese Agenten benötigen fast keine menschliche Intervention und zeigen eine Fähigkeit, die zwar kein Bewusstsein, aber rechnerische Intention aufweist, Entscheidungen zu treffen, aus Erfahrungen zu lernen und auf immer komplexere Weise mit anderen Agenten oder Menschen zu interagieren.
Dieser Artikel wird das aufkommende Feld autonomer Agenten untersuchen, insbesondere agentenbasierte Modelle, die auf großen Sprachmodellen (LLM) basieren, und deren Auswirkungen auf verschiedene Bereiche wie Spiele, Governance, Wissenschaft und Robotik. Auf der Grundlage der Erörterung grundlegender Prinzipien von Agenten wird der Artikel die Architektur und Anwendung von KI-Agenten analysieren. Durch diesen kategorischen Ansatz können wir besser verstehen, wie diese Agenten Aufgaben ausführen, Informationen verarbeiten und sich innerhalb ihrer spezifischen Betriebsrahmen weiterentwickeln.
Die Ziele dieses Artikels umfassen folgende zwei Aspekte:
Bereitstellung eines systematischen Überblicks über KI-Agenten und ihre architektonischen Grundlagen, mit einem Schwerpunkt auf Komponenten wie Gedächtnis, Wahrnehmung, Schlussfolgerung und Planung.
Untersuchung der neuesten Trends in der Forschung zu KI-Agenten, mit einem Fokus auf Anwendungsfälle, die Möglichkeiten neu definieren.
Hinweis: Aufgrund des Umfangs des Artikels wurde der Originaltext gekürzt.
1. Trends in der Agentenforschung
Die Entwicklung von auf großen Sprachmodellen (LLM) basierenden Agenten markiert einen bedeutenden Fortschritt in der KI-Forschung und umfasst mehrere Fortschritte in symbolischem Schließen, reaktiven Systemen, verstärkendem Lernen bis hin zu adaptivem Lernen.
Symbolagenten: Simulation menschlicher Schlussfolgerungen durch Regeln und strukturierte Kenntnisse, geeignet für spezifische Probleme (z. B. medizinische Diagnosen), jedoch schwerfällig in komplexen, unsicheren Umgebungen.
Reaktive Agenten: Reagieren schnell auf Umgebungen durch den „Wahrnehmung-Handlung“-Zyklus, geeignet für schnelle Interaktionsszenarien, jedoch nicht in der Lage, komplexe Aufgaben zu erfüllen.
Verstärkungslern-Agenten: Optimierung von Verhaltensweisen durch trial-and-error-Lernen, weit verbreitet in Spielen und Robotik, jedoch lange Trainingszeiten, geringe Proben-Effizienz, schlechte Stabilität.
LLM-basierte Agenten: LLM-Agenten kombinieren symbolisches Schließen, Feedback und adaptives Lernen und haben Fähigkeiten zum Lernen mit wenigen oder ohne Beispiele, die in Bereichen wie Softwareentwicklung, wissenschaftlicher Forschung usw. weit verbreitet sind, geeignet für dynamische Umgebungen und in der Lage, mit anderen Agenten zu kooperieren.
2. Agentenarchitektur
Moderne Agentenarchitekturen bestehen aus mehreren Modulen, die ein integriertes System bilden.
1) Archivmodul
Das Archivmodul bestimmt das Verhalten des Agenten, indem es Rollen oder Persönlichkeiten zuweist, um Konsistenz zu gewährleisten, geeignet für Szenarien, die stabile Persönlichkeiten erfordern. Die Archive von LLM-Agenten unterteilen sich in drei Kategorien: demografische Rollen, virtuelle Rollen und personalisierte Rollen.
Aus der (Von Rollen zu Personalisierung)-Studie
Die Rolle der Leistungssteigerung: Die Rollenzuweisung kann die Leistung und die Schlussfolgerungsfähigkeit von Agenten erheblich verbessern. Beispielsweise antworten LLMs als Experten tiefer und kontextgerechter. In Multi-Agentensystemen fördert die Rollenzuordnung die Zusammenarbeit und erhöht die Erfolgsquote bei Aufgaben und die Interaktionsqualität.
Methoden zur Archivbildung für LLM-Agenten können wie folgt erstellt werden:
Manuelle Gestaltung: Manuelles Festlegen von Charaktereigenschaften.
LLM-Generierung: Automatisierte Erweiterung von Charakterentwürfen durch LLMs.
Datenabgleich: Aufbau basierend auf realen Datensätzen zur Verbesserung der Interaktionsauthentizität.
2) Gedächtnismodul
Gedächtnis ist der Kern von LLM-Agenten, unterstützt adaptive Planung und Entscheidungsfindung. Die Gedächtnisstruktur simuliert menschliche Prozesse und wird hauptsächlich in zwei Kategorien unterteilt:
Einheitliches Gedächtnis: Kurzzeitgedächtnis, das zuletzt erhaltene Informationen verarbeitet. Optimierung durch Textausschnitte, Gedächtniszusammenfassungen und Anpassung der Aufmerksamkeitsmechanismen, jedoch begrenzt durch das Kontextfenster.
Hybrides Gedächtnis: Kombination von Kurzzeit- und Langzeitgedächtnis, wobei Langzeitgedächtnis in externen Datenbanken gespeichert wird, um effizientes Abrufen zu erleichtern.
Häufige Speicherformate für Gedächtnis sind:
Natürliche Sprache: Flexibel und bedeutungsvoll.
Einbettungsvektoren: Erleichtern die schnelle Suche.
Datenbank: Unterstützt Abfragen durch strukturierte Speicherung.
Strukturierte Listen: Organisation in Listen oder hierarchischen Formen.
Gedächtnisoperationen: Agenten interagieren mit Gedächtnis durch die folgenden Operationen:
Gedächtnisabruf: Abfragen relevanter Informationen zur Unterstützung fundierter Entscheidungen.
Gedächtnisaufzeichnung: Speicherung neuer Informationen, um Duplikationen und Überläufe zu vermeiden.
Gedächtnisreflexion: Zusammenfassung von Erfahrungen zur Verbesserung der abstrakten Schlussfolgerungsfähigkeiten.
Inhalt basierend auf der (Generative Agents)-Studie
Forschungsbedeutung und Herausforderungen
Obwohl Gedächtnissysteme die Fähigkeiten von Agenten verbessern, bringt dies auch Forschungsherausforderungen mit sich:
Erweiterbarkeit und Effizienz: Gedächtnissysteme müssen große Informationsmengen unterstützen und eine schnelle Suche gewährleisten; wie man die Suche nach Langzeitgedächtnisinhalten optimiert, bleibt ein Forschungsschwerpunkt.
Umgang mit Kontextfensterbeschränkungen: Gegenwärtige LLMs sind auf das Kontextfenster beschränkt, was das Management großer Gedächtnisse erschwert. Die Forschung untersucht dynamische Aufmerksamkeitsmechanismen und Zusammenfassungstechniken zur Erweiterung der Gedächtnisverarbeitungsfähigkeiten.
Abweichungen und Drift im Langzeitgedächtnis: Gedächtnis kann Verzerrungen aufweisen, die zu einer bevorzugten Verarbeitung von Informationen führen und Gedächtnisdrift erzeugen. Es ist notwendig, regelmäßig zu aktualisieren und Verzerrungen zu korrigieren, um die Balance des Agenten zu erhalten.
Katastrophales Vergessen: Neue Daten überschreiben alte Daten, was zu einem Verlust kritischer Informationen führt. Techniken wie Erfahrungsspiel und Gedächtniskonsolidierung sind erforderlich, um kritische Erinnerungen zu stärken.
3) Wahrnehmungsfähigkeiten
LLM-Agenten verbessern ihr Verständnis und ihre Entscheidungsfähigkeit in der Umgebung, indem sie vielfältige Datenquellen verarbeiten, ähnlich wie Menschen auf sensorische Eingaben angewiesen sind. Multimodale Wahrnehmung integriert Texteingaben, visuelle und akustische Eingaben und erhöht die Fähigkeit von Agenten, komplexe Aufgaben auszuführen. Hier sind die Haupttypen von Eingaben und deren Anwendungen:
Texteingabe: Text ist die Hauptkommunikationsweise von LLM-Agenten. Obwohl Agenten über fortgeschrittene Sprachfähigkeiten verfügen, bleibt es eine Herausforderung, die implizite Bedeutung hinter den Anweisungen zu verstehen.
Implizites Verständnis: Anpassung von Präferenzen durch Verstärkungslernen, Verarbeitung von vagen Anweisungen und Vermutung von Absichten.
Zero-Shot- und Few-Shot-Fähigkeiten: Antwort auf neue Aufgaben ohne zusätzliche Schulung, geeignet für vielfältige Interaktionsszenarien.
Visuelle Eingabe: Visuelle Wahrnehmung ermöglicht es Agenten, Objekte und räumliche Beziehungen zu verstehen.
Bild zu Text: Generierung von Textbeschreibungen zur Unterstützung der Verarbeitung visueller Daten, aber möglicherweise Verlust von Details.
Transformator-basiertes Codieren: wie Vision Transformers, die Bilder in textkompatible Token umwandeln.
Brückentools: wie BLIP-2 und Flamingo, die Optimierungen zwischen visuellen und textuellen Schnittstellen nutzen.
Akustische Eingabe und akustische Wahrnehmung sind wichtig für Agenten, um Geräusche und Sprache zu erkennen, insbesondere in interaktiven und risikobehafteten Szenarien.
Spracherkennung und -synthese: wie Whisper (Speech-to-Text) und FastSpeech (Text-to-Speech).
Spektrogrammverarbeitung: Audio-Spektrogramme in Bilder umwandeln, um die Analyse akustischer Signale zu verbessern.
Herausforderungen und Überlegungen zur Forschung über multimodale Wahrnehmung:
Datenabgleich und -integration: Multimodale Daten erfordern effizienten Abgleich, um Wahrnehmungs- und Antwortfehler zu vermeiden. Die Forschung konzentriert sich auf die Optimierung von multimodalen Transformatoren und Kreuzaufmerksamkeits-Schichten.
Erweiterbarkeit und Effizienz: Multimodale Verarbeitung erfordert viel, insbesondere bei der Verarbeitung hochauflösender Bilder und Audios, daher ist die Entwicklung ressourcenschonender und erweiterbarer Modelle entscheidend.
Katastrophales Vergessen: Multimodale Agenten stehen vor dem Problem des katastrophalen Vergessens. Strategien wie Priorisierungs-Playback und kontinuierliches Lernen sind erforderlich, um kritische Informationen effektiv zu behalten.
Situationssensitives Antwortgenerieren bleibt ein Forschungsschwerpunkt, insbesondere in lauten oder visuell dominierten Umgebungen.
4) Schlussfolgerung und Planung
Das Schlussfolgerungs- und Planungsmodul hilft Agenten, komplexe Aufgaben effizient zu lösen, indem sie sie aufteilen. Ähnlich wie Menschen kann es strukturierte Pläne erstellen, vollständige Pläne im Voraus erstellen oder Strategien basierend auf Feedback in Echtzeit anpassen. Planungsmethoden werden nach Feedbackart kategorisiert:
Einige Agenten erstellen vorab vollständige Pläne und führen diese gemäß einem Ein-Pfad- oder Mehrpfad-Ansatz aus, ohne den Plan zu ändern.
Weitere Agenten passen ihre Strategien in dynamischen Umgebungen in Echtzeit an, basierend auf Feedback.
Planung ohne Feedback: In Situationen ohne Feedback erstellen Agenten von Anfang an vollständige Pläne und führen diese aus, ohne Anpassungen vorzunehmen. Dazu gehören Ein-Pfad-Planung (Schritt für Schritt ausführen) und Mehrpfad-Planung (gleiche Zeit mehrere Optionen erkunden, um die beste Wahl zu treffen).
Ein-Pfad-Schlussfolgerungsaufgaben werden in sequenzielle Schritte zerlegt, wobei jeder Schritt dem nächsten folgt:
Denken entlang der Kette (CoT): Durch einige Beispiele geleitet, hilft Agenten, Probleme schrittweise zu lösen und die Modellausgabequalität zu verbessern.
Zero-Shot-CoT: Schlussfolgerung ohne vordefinierte Beispiele durch den Hinweis „Schrittweise denken“, geeignet für Zero-Shot-Lernen.
Re-Prompts: Automatische Entdeckung wirksamer CoT-Prompts ohne menschliches Eingreifen.
Aus der CoT-Studie
5) Mehrpfad-Schlussfolgerung
Im Gegensatz zu Ein-Pfad-Schlussfolgerungen erlaubt Mehrpfad-Schlussfolgerung Agenten, mehrere Schritte gleichzeitig zu erkunden, mehrere potenzielle Lösungen zu generieren und zu bewerten, um den besten Weg auszuwählen, was für komplexe Probleme geeignet ist, insbesondere bei verschiedenen möglichen Wegen.
Beispiel:
Selbstkonsistenz in Kettendenken (CoT-SC): Sampling mehrerer Schlussfolgerungswege aus CoT-Prompt-Ausgaben und Auswahl der häufigsten Schritte zur Erreichung von „Selbstintegration“.
Denkenbaum (ToT): Speichern logischer Schritte als Baumstruktur, Bewerten des Beitrags jedes „Denken“ zur Lösung, Verwendung von Breitensuche oder Tiefensuche zur Navigation.
Denken-Graf (GoT): Erweiterung von ToT zu einer grafischen Struktur, wobei Denken als Knoten und Abhängigkeiten als Kanten dargestellt werden, um flexiblere Schlussfolgerungen zu ermöglichen.
Durch Planungs Schlussfolgerung (RAP): Verwendung von Monte-Carlo-Baum-Suche (MCTS) zur Simulation mehrerer Pläne, wobei Sprachmodelle sowohl Schlussfolgerungsbäume aufbauen als auch Feedback geben.
6) Externe Planer
Wenn LLMs mit spezifischen Planungsherausforderungen konfrontiert sind, bieten externe Planer Unterstützung, indem sie das Fachwissen integrieren, das LLMs fehlt.
LLM+P: Aufgaben in eine planbasierte Definition Language (PDDL) umwandeln und über externe Planer lösen, um LLMs bei der Ausführung komplexer Aufgaben zu helfen.
CO-LLM: Modelle kooperieren, um Texte zu generieren, indem sie abwechselnd Modelle zur Generierung von Markierungen auswählen, wodurch das optimale Kooperationsmuster natürlich auftritt.
Feedback-gesteuerte Planung ermöglicht es Agenten, Aufgaben in Echtzeit basierend auf Umweltänderungen anzupassen und sich an unvorhersehbare oder komplexe Szenarien anzupassen.
Umweltfeedback-Agenten passen ihre Pläne an, während sie mit der Umgebung interagieren und den Fortschritt der Aufgaben aufrechterhalten.
ReAct: Kombination von Schlussfolgerung und Handlungshinweisen zur Erstellung anpassbarer Pläne in Interaktionen.
DEPS: Überarbeitung von Plänen in der Aufgabenplanung zur Bearbeitung unerledigter Unterziele.
SayPlan: Verwendung von Szenengrafen und Zustandsübergängen zur Verfeinerung von Strategien und zur Verbesserung des Situationsbewusstseins.
Aus der (ReAct)-Studie
7) Menschliches Feedback
Durch Interaktion mit Menschen helfen Agenten, mit menschlichen Werten in Einklang zu kommen und Fehler zu vermeiden. Beispiel:
Innerer Monolog: Integration menschlicher Rückmeldungen in die Planung von Agenten, um sicherzustellen, dass Handlungen mit menschlichen Erwartungen übereinstimmen.
Modellfeedback: Das Feedback von vortrainierten Modellen hilft den Agenten, sich selbst zu überprüfen und Schlussfolgerungen und Handlungen zu optimieren. Beispiel:
SelfCheck: Zero-Shot-Schrittweise-Checker zur Selbstidentifikation von Fehlern in Schlussfolgerungsketten und zur Bewertung der Richtigkeit.
Reflexion: Agenten reflektieren durch Aufzeichnung von Feedbacksignalen und fördern langfristiges Lernen und Fehlerkorrektur.
Aus der (SelfCheck)-Studie
Herausforderungen und Forschungsrichtungen in Schlussfolgerung und Planung: Obwohl die Schlussfolgerungs- und Planungsmodul die Fähigkeiten von Agenten erhöht haben, stehen sie weiterhin vor Herausforderungen:
Erweiterbarkeit und Rechenanforderungen: Komplexe Methoden wie ToT oder RAP benötigen erhebliche Rechenressourcen; Effizienzsteigerung bleibt ein Forschungsschwerpunkt.
Komplexität der Feedback-Integration: Effektive Integration von Multiquellen-Feedback zur Vermeidung von Informationsüberlastung ist der Schlüssel zur Verbesserung der Anpassungsfähigkeit, ohne die Leistung zu opfern.
Verzerrungen in Entscheidungen: Die Bevorzugung bestimmter Feedbackquellen oder -wege kann zu Verzerrungen führen; die Kombination von Verzerrungsreduzierungstechniken ist der Schlüssel zur ausgewogenen Planung.
8) Handlung
Das Aktionsmodul ist die letzte Phase des Entscheidungsprozesses von Agenten und umfasst:
Handlungsziele: Agenten führen mehrere Ziele aus, wie das Erfüllen von Aufgaben, Kommunikation oder das Erkunden der Umgebung.
Aktionsgenerierung: Aktionsgenerierung durch Erinnerung oder Planung, wie handlungsbasierte Aktionen oder planungsbasierte Aktionen.
Aktionsraum: Umfasst internes Wissen und externe Werkzeuge wie APIs, Datenbanken oder externe Modelle zur Ausführung von Aufgaben. Beispielsweise verwenden Werkzeuge wie HuggingGPT und ToolFormer externe Modelle oder APIs zur Aufgabenbearbeitung.
Datenbanken und Wissensdatenbanken: ChatDB verwendet SQL-Abfragen, um bereichsspezifische Informationen zu extrahieren, während MRKL Expertensysteme und Planungstools für komplexe Schlussfolgerungen integriert.
Externe Modelle: Agenten können auf nicht-API-Modelle angewiesen sein, um spezielle Aufgaben auszuführen. Beispielsweise führt ChemCrow Medikamente durch mehrere Modelle ein und MemoryBank verbessert die Textextraktion durch zwei Modelle.
Handlungswirkungen: Handlungen können basierend auf den Ergebnissen in folgende Kategorien unterteilt werden:
Umweltveränderungen: wie Ressourcenakquise oder Strukturaufbau in Voyager und GITM, verändern die Umgebung.
Selbstbeeinflussung: wie Generative Agents, die das Gedächtnis aktualisieren oder neue Pläne entwickeln.
Aufgabenverkettung: Bestimmte Aktionen lösen andere aus, wie Voyager, die Strukturen nach Ressourcensammlung bauen.
Erweiterung des Aktionsraums: Die Gestaltung von KI-Agenten erfordert starke Architekturen und Aufgabenskills. Fähigkeiten können auf zwei Arten erworben werden: Feinabstimmung und keine Feinabstimmung.
Fähigkeitsakquisition durch Feinabstimmung:
Manuell beschriftete Datensätze: wie RET-LLM und EduChat, die die Leistung von LLMs durch manuelle Beschriftung verbessern.
LLM-generierte Datensätze: wie ToolBench, die Anweisungen zur Feinabstimmung von LLaMA durch LLMs erstellen.
Echte Datensätze: wie MIND2WEB und SQL-PaLM, die die Fähigkeiten von Agenten durch reale Anwendungsdaten verbessern.
Fähigkeitserwerb ohne Feinabstimmung: Wenn Feinabstimmung nicht möglich ist, können Agenten ihre Fähigkeiten durch Prompt Engineering und Mechanism Engineering erhöhen.
Prompt Engineering leitet das Verhalten von LLMs durch das Design von Hinweisen und verbessert die Leistung.
Chain of Thought (CoT): Einführung von mittleren Schlussfolgerungsschritten zur Unterstützung komplexer Problemlösungen.
SocialAGI: Anpassung der Dialoge basierend auf dem psychologischen Zustand der Benutzer.
Retroformer: Optimierung von Entscheidungen durch Reflexion über vergangene Misserfolge.
Mechanism Engineering verstärkt die Fähigkeiten von Agenten durch spezielle Regeln und Mechanismen.
DEPS: Optimierung von Plänen, Verbesserung der Fehlerkorrektur durch Beschreibung von Ausführungsprozessen, Feedback und Zielwahl.
RoCo: Anpassung von Multi-Roboter-Kooperationsplänen basierend auf Umgebungsprüfungen.
Debattenmechanismus: Konsensfindung durch Zusammenarbeit.
Erfahrungssammeln
GITM: Textbasierte Gedächtnismechanismen zur Verbesserung von Lern- und Generalisierungsfähigkeiten.
Voyager: Optimierung der Fähigkeit zur Ausführung von Fähigkeiten durch Selbstfeedback.
Selbstgetriebene Evolution
LMA3: Unterstützt Zielumbenennung und Belohnungsfunktionen, die es Agenten ermöglichen, Fähigkeiten in Umgebungen ohne spezifische Aufgaben zu erlernen.
Aus der (Voyager)-Studie
Feinabstimmung kann die aufgabenspezifische Leistung erheblich verbessern, erfordert jedoch Open-Source-Modelle und hat hohe Ressourcenkosten. Prompt Engineering und Mechanismen Engineering sind für Open-Source- und Closed-Source-Modelle geeignet, jedoch begrenzt durch den Eingabekontext und erfordern sorgfältige Gestaltung.
3. Systemarchitekturen mit mehreren Agenten
Multi-Agenten-Architektur verteilt Aufgaben auf mehrere Agenten, die jeweils auf verschiedene Aspekte fokussiert sind, was Robustheit und Anpassungsfähigkeit erhöht. Die Zusammenarbeit und das Feedback zwischen Agenten verbessern die Gesamteffizienz und können dynamisch an die Anforderungen angepasst werden. Diese Architektur steht jedoch vor Koordinationsherausforderungen, wobei Kommunikation entscheidend ist, um Informationsverlust oder Missverständnisse zu vermeiden.
Um die Kommunikation und Koordination zwischen Agenten zu fördern, konzentriert sich die Forschung auf zwei Arten von Organisationsstrukturen:
Horizontale Struktur: Alle Agenten teilen und optimieren Entscheidungen, aggregieren persönliche Entscheidungen durch kollektive Entscheidungsfindung, geeignet für Beratung oder Werkzeugnutzungsszenarien.
Vertikale Struktur: Ein Agent schlägt eine vorläufige Lösung vor, andere Agenten geben Feedback oder werden von einem Aufseher beaufsichtigt, geeignet für Aufgaben, die raffinierte Lösungen erfordern, wie das Lösen von Mathematikproblemen oder Softwareentwicklung.
Aus der (ChatDev)-Studie
1) Hybride Organisationsstruktur
DyLAN kombiniert vertikale und horizontale Strukturen zu einem hybriden Ansatz, wobei Agenten innerhalb derselben Ebene horizontal zusammenarbeiten und Informationen über Zeitschritte hinweg austauschen. DyLAN führt ein Ranking-Modell und ein Agenten-Wichtigkeit-Bewertungssystem ein, um dynamisch zu bewerten und die relevantesten Agenten für die weitere Zusammenarbeit auszuwählen, während leistungsschwache Agenten deaktiviert werden, was eine hierarchische Struktur bildet. Hochrangige Agenten spielen eine Schlüsselrolle bei Aufgaben und Teamzusammensetzung.
Kooperative Multi-Agenten-Rahmen fokussieren sich auf die Stärken jedes Agenten, indem sie Informationen teilen und Aktionen koordinieren, um komplementäre Kooperationen zur Maximierung der Effizienz zu erreichen.
Aus der (Agentverse)-Studie
Kollaborative Interaktionen sind in zwei Typen unterteilt:
Unordentliche Zusammenarbeit: Mehrere Agenten interagieren frei und folgen nicht einer festen Reihenfolge oder einem Prozess, ähnlich wie bei einem Brainstorming. Jeder Agent gibt Feedback, und das System koordiniert die Agenten, um Eingaben zu integrieren und Antworten zu organisieren, um Verwirrung zu vermeiden, wobei oft ein Mehrheitsabstimmungsmechanismus zur Konsensbildung verwendet wird.
Geordnete Zusammenarbeit: Agenten interagieren sequenziell, befolgen strukturierte Prozesse, wobei jeder Agent auf die Ausgaben des vorhergehenden Agenten achtet, um effiziente Kommunikation zu gewährleisten. Aufgaben werden schnell erledigt, um Verwirrung zu vermeiden, erfordern jedoch Kreuzvalidierung oder menschliches Eingreifen, um die Vergrößerung von Fehlern zu verhindern.
Aus der MetaGPT-Studie
Konfrontative Multi-Agenten-Rahmen: Kooperative Rahmen erhöhen Effizienz und Zusammenarbeit, während konfrontative Rahmen durch Herausforderungen die Evolution von Agenten vorantreiben. Inspiriert von der Spieltheorie ermutigt konfrontatives Interagieren Agenten, ihr Verhalten durch Feedback und Reflexion zu verbessern. Beispielsweise verbessert AlphaGo Zero seine Strategien durch Selbstspiel, während LLM-Systeme ihre Ausgabewerte durch Debatten und „Auge um Auge“-Wechsel erhöhen. Obwohl diese Methode die Anpassungsfähigkeit der Agenten fördert, bringt sie auch Rechenaufwand und Fehlerrisiken mit sich.
Emergente Verhaltensweisen in Multi-Agenten-Systemen können drei Arten von emergenten Verhalten umfassen:
Ehrenamtliches Verhalten: Agenten tragen aktiv Ressourcen bei oder helfen anderen.
Konsistentes Verhalten: Agenten passen ihr Verhalten an, um den Teamzielen zu entsprechen.
Zerstörerisches Verhalten: Agenten können extreme Maßnahmen ergreifen, um schnell Ziele zu erreichen, was möglicherweise Sicherheitsrisiken birgt.
Benchmarking und Bewertung: Benchmarking ist ein wichtiges Instrument zur Bewertung der Agentenleistung. Häufig verwendete Plattformen sind ALFWorld, IGLU und Minecraft, die getestet werden, um die Fähigkeiten der Agenten in Planung, Zusammenarbeit und Aufgabenausführung zu messen. Gleichzeitig sind die Bewertung von Toolverwendung und sozialen Fähigkeiten von großer Bedeutung, Plattformen wie ToolBench und SocKET bewerten die Anpassungsfähigkeit und das soziale Verständnis von Agenten.
Digitale Spiele als Plattform für KI-Forschung werden immer wichtiger, wobei LLM-basierte Spielagenten auf kognitive Fähigkeiten fokussiert sind und die AGI-Forschung vorantreiben.
Aus der (Umfrage zu KI-Agenten basierend auf großen Sprachmodellen)
Wahrnehmung von Agenten in Spielen: In Videospielen verstehen Agenten den Spielstatus durch ein Wahrnehmungsmodul, wobei es drei Hauptmethoden gibt:
Zugriff auf Zustandsvariablen: Zugriff auf symbolische Daten über Gaming-APIs, geeignet für Spiele mit niedrigen visuellen Anforderungen.
Externe visuelle Kodierer: Verwendung visueller Kodierer zur Umwandlung von Bildern in Text, wie CLIP, um Agenten das Verständnis der Umgebung zu erleichtern.
Multimodale Sprachmodelle: Kombination von visuellen und textuellen Daten zur Verbesserung der Anpassungsfähigkeit von Agenten, wie GPT-4V.
Fallstudie zu Spielagenten
Cradle (Abenteuerspiel): Dieses Spiel verlangt von Agenten, die Handlung zu verstehen, Rätsel zu lösen und zu navigieren, und steht vor Herausforderungen wie multimodaler Unterstützung, dynamischen Gedächtnis und Entscheidungsfindung. Cradles Ziel ist es, generelle Computersteuerung (GCC) zu erreichen, damit Agenten durch Bildschirm- und Audioeingaben jede Computeraufgabe ausführen können, was eine größere Vielseitigkeit gewährleistet.
PokéLLMon (Wettbewerbsspiel): Wettbewerbs spiele sind aufgrund ihrer strengen Regeln und der Vergleichbarkeit der Siegquote mit menschlichen Spielern zu einem Benchmark für Schlussfolgerungs- und Planungsleistung geworden. Mehrere Agentenrahmen haben bereits wettbewerbsfähige Leistungen gezeigt. Zum Beispiel spielt das LLM in (Large Language Models Play StarCraft II: Benchmarks and Chain of Thought Methods) gegen integrierte KI in einer textbasierten StarCraft II-Auseinandersetzung. PokéLLMon ist der erste LLM-Agent, der eine menschliche Leistungsstufe erreicht hat, mit einer Gewinnquote von 49 % in Ranglistenspielen und 56 % in Einladungsspielen im Pokémon-Taktikspiel. Dieser Rahmen verhindert Illusionen und Panikzyklen im Chain-of-Thought, indem er die Wissensgenerierung und konsistente Aktionsgenerierung verstärkt. Agenten konvertieren die Statusprotokolle des Kampfsservers in Text, um die Kohärenz der Runden sicherzustellen und die gedächtnisbasierte Schlussfolgerung zu unterstützen.
Agenten optimieren Strategien durch vier Arten von Feedback-Verstärkungslernen, einschließlich HP-Änderungen, Fähigkeitseffekte, Schätzungen der Aktionsreihenfolge und Effekte des Fähigkeitsstatus, um Strategien zu optimieren und die Wiederholung ineffektiver Fähigkeiten zu vermeiden.
PokéLLMon nutzt externe Ressourcen (z. B. Bulbapedia), um Wissen zu erlangen, z. B. Typvorteile und Fähigkeiten, um Agenten zu helfen, spezielle Fähigkeiten präziser zu nutzen. Außerdem wird durch die Bewertung von CoT, Selbstkonsistenz und ToT festgestellt, dass Selbstkonsistenz die Gewinnrate erheblich steigert.
ProAgent (Kollaborationsspiel): Kollaborationsspiele erfordern das Verständnis der Absichten von Teamkollegen und die Vorhersage von Aktionen, um Aufgaben durch explizite oder implizite Zusammenarbeit zu erfüllen. Explizite Zusammenarbeit ist effizient, aber weniger flexibel, während implizite Zusammenarbeit sich auf die Vorhersage der Strategien von Teamkollegen für adaptive Interaktionen verlässt. In (Overcooked) zeigt ProAgent die Fähigkeit zur impliziten Zusammenarbeit, wobei der Kernprozess in fünf Schritte unterteilt ist:
Wissenserfassung und Zustandsübergänge: Extraktion von aufgabenbezogenem Wissen und Generierung sprachlicher Beschreibungen.
Fähigkeitsplanung: Vermutung der Absichten von Teamkollegen und Entwicklung von Aktionsplänen.
Glaubenskorrektur: Dynamisches Update des Verständnisses des Verhaltens von Teamkollegen zur Reduzierung von Fehlern.
Fähigkeitsvalidierung und Ausführung: Iterative Anpassung der Pläne zur Gewährleistung der Wirksamkeit von Handlungen.
Speicher für Erinnerungen: Aufzeichnung von Interaktionen und Ergebnissen zur Optimierung zukünftiger Entscheidungen.
Besonders entscheidend ist der Mechanismus der Glaubenskorrektur, der sicherstellt, dass Agenten ihre Verständnisse durch Interaktionen aktualisieren, um das Situationsbewusstsein und die Entscheidungsgenauigkeit zu erhöhen.
ProAgent übertrifft fünf selbstspielende und crowd-basierte Trainingsmethoden.
2) Generative Agenten (Simulation)
Wie spiegeln virtuelle Charaktere die Tiefe und Komplexität menschlichen Verhaltens wider? Obwohl frühe KI-Systeme wie SHRDLU und ELIZA versuchten, natürliche Sprachinteraktionen zu ermöglichen, und regelbasierte Ansätze sowie Verstärkungslernen Fortschritte im Spielbereich erzielten, litten sie unter Einschränkungen hinsichtlich Konsistenz und offener Interaktion. Heutzutage überwinden intelligente Agenten, die LLMs und mehrschichtige Architekturen kombinieren, diese Einschränkungen und verfügen über die Fähigkeit, Erinnerungen zu speichern, Ereignisse zu reflektieren und sich an Veränderungen anzupassen. Forschungen zeigen, dass diese Agenten nicht nur menschliches Verhalten realistisch simulieren, sondern auch emergente Fähigkeiten zur Informationsverbreitung, zum Aufbau sozialer Beziehungen und zur Koordination von Handlungen zeigen, und somit die Virtuosität von Charakteren erhöhen.
Aus (Der Aufstieg und das Potenzial von großflächigen Sprachmodellagenten: Eine Umfrage)
Architekturübersicht: Diese Architektur kombiniert Wahrnehmung, Gedächtnisabruf, Reflexion, Planung und Reaktion. Der Agent verarbeitet natürliche Sprachbeobachtungen über ein Gedächtnismodul, bewertet und ruft Informationen basierend auf Aktualität, Wichtigkeit und Kontextbezug ab und generiert gleichzeitig Reflexionen, die auf vergangenen Erinnerungen basieren, um tiefgehende Einblicke in Beziehungen und Planungen zu bieten. Die Schlussfolgerungs- und Planungsmodulähnlichkeit funktioniert ähnlich wie der Plan-Aktions-Zyklus.
Simulationsresultate: Die Studie simulierte die Informationsverbreitung der Valentinstagsparty und der Bürgermeisterwahlen. Innerhalb von zwei Tagen stieg das Bewusstsein für den Bürgermeisterkandidaten von 4 % auf 32 %, das Bewusstsein für die Party von 4 % auf 52 %, wobei der Anteil an Fehlinformationen nur 1,3 % betrug. Agenten organisierten die Party durch spontane Koordination und bildeten ein neues soziales Netzwerk, dessen Dichte von 0,167 auf 0,74 stieg. Die Simulation zeigte einen Informationsaustausch und eine soziale Koordinationsmechanismus ohne externe Intervention und bietet Anhaltspunkte für zukünftige sozialwissenschaftliche Experimente.
Voyager (Erstellung und Erkundung): Im Minecraft kann der Agent Produktionsaufgaben oder autonome Erkundungen durchführen. Produktionsaufgaben basieren auf LLM-Planung und Aufgabenteilung, während eine autonome Erkundung durch Kurslernen die Aufgaben identifiziert, wobei LLM Ziele generiert. Voyager ist ein verkörperter lebenslanger Lernagent, der automatisierte Kurse, ein Fähigkeitsarchiv und Feedback-Mechanismen kombiniert und das Potenzial für Erkundung und Lernen zeigt.
Automatisierte Kurse nutzen LLMs, um Ziele, die mit dem Status des Agenten und dem Fortschritt der Erkundung verbunden sind, zu generieren und die Aufgaben schrittweise zu komplexifizieren. Agenten generieren modulare Codes zur Ausführung von Aufgaben und geben bei Bedarf durch Kettendenken Hinweise zur Anpassung der Ergebnisse. Nach dem Erfolg wird der Code in einer Wissensdatenbank für zukünftige Verwendung gespeichert.
Das Voyager-Framework hat die Effizienz beim Freischalten von Technologiebäumen erheblich gesteigert, wobei Holz, Stein und Eisen jeweils um das 15,3-fache, 8,5-fache und 6,4-fache freigeschaltet wurden und es das einzige Framework ist, das Diamanten freischaltet. Die Erkundungsdistanz ist 2,3-mal länger als die Benchmark, neue Gegenstände werden um 3,3-mal häufiger entdeckt, was eine hervorragende Fähigkeit zum lebenslangen Lernen zeigt.
4. Potenzielle Anwendungen im Spielebereich: 1) agentengesteuertes Gameplay
Multi-Agenten-Simulation: KI-Charaktere handeln autonom und treiben dynamisches Gameplay voran.
Strategie-Spiele intelligente Einheiten: Agenten passen sich an die Ziele der Spieler an und treffen autonome Entscheidungen.
AI-Trainingsplatz: Spieler entwerfen und trainieren KI, um Aufgaben zu erfüllen.
2) KI-verbesserte NPCs und virtuelle Welten
Open-World-NPCs: LLM-gesteuerte NPCs beeinflussen wirtschaftliche und soziale Dynamiken.
Echte Dialoge: Verbesserung der Interaktionserfahrung von NPCs.
Virtuelle Ökosysteme: KI-gesteuerte Evolution von Ökosystemen.
Dynamische Ereignisse: Echtzeitmanagement von Aktivitäten im Spiel.
3) Dynamische Erzählung und Spielerunterstützung
Adaptive Erzählung: Agenten generieren personalisierte Aufgaben und Geschichten.
Spielerassistent: Bietet Hinweise und interaktive Unterstützung.
Emotionale Reaktions-KI: Interaktion basierend auf den Emotionen der Spieler.
4) Bildung und Kreation
KI-Gegner: Anpassung an die Strategien der Spieler in Wettkämpfen und Simulationen.
Bildungsspiele: Agenten bieten personalisierte Lehrangebote.
Unterstützende Kreation: Generierung von Spielinhalten zur Senkung der Entwicklungskosten.
5) Anwendungen im Bereich Krypto und Finanzen
Agenten operieren autonom über Blockchain-Wallets, Transaktionen und Interaktionen mit DeFi-Protokollen.
Intelligente Vertrags-Wallets: Unterstützung von Multi-Signaturen und Kontenabstraktion zur Verbesserung der Autonomie von Agenten.
Verwaltung privater Schlüssel: Verwendung von Multi-Party-Computing (MPC) oder vertrauenswürdigen Ausführungsumgebungen (TEE), um Sicherheit zu gewährleisten, wie von Coinbase entwickelten KI-Agententools.
Diese Technologien eröffnen neue Möglichkeiten für die autonome On-Chain-Interaktion von Agenten und Anwendungen im Kryptowährungsbereich.
5. Anwendungen von Agenten im Blockchain-Bereich
1) Verifizierende Agentenschlussfolgerung
Off-Chain-Validierung ist ein heißes Thema in der Blockchain-Forschung, vor allem in aufwendigen Berechnungen. Forschungsrichtungen umfassen Zero-Knowledge-Beweise, optimistische Validierung, vertrauenswürdige Ausführungsumgebungen (TEE) und kryptowirtschaftliche Spieltheorie.
Validierung von Agentenausgaben: Bestätigung von Schlussfolgerungsergebnissen durch On-Chain-Validatoren, sodass Agenten extern betrieben werden können und zuverlässige Schlussfolgerungsergebnisse auf die Blockchain übertragen werden, ähnlich einem dezentralen Oracle.
Fallstudie: Modulus Labs „Leela vs. the World“ verwendet Zero-Knowledge-Circuits zur Validierung von Schachzügen und kombiniert Vorhersagemärkte mit verifizierbaren KI-Ausgaben.
2) Krypto- und Finanzagenten-Kooperation
Verteiltes Knotensystem kann mehrere Agentensysteme betreiben und Konsens erreichen.
Ritual-Fallstudie: Durch den Betrieb von LLMs an mehreren Knotenpunkten wird die Agentenentscheidung durch On-Chain-Validierung und Abstimmung gebildet.
Naptha-Protokoll: Bereitstellung eines Aufgabenmarktes und eines Workflow-Validierungssystems für die Zusammenarbeit und Validierung von Agentenaufgaben.
Dezentralisierte KI-Orakel: wie das Ora-Protokoll, das die Ausführung von verteilten Agenten und die Konsensbildung unterstützt.
3) Eliza-Rahmen
Von a16z entwickelt, ein Open-Source-Multi-Agenten-Rahmen, der die Erstellung und Verwaltung personalisierter intelligenter Agenten unterstützt.
Eigenschaften: Modulare Architektur, langfristiges Gedächtnis, Plattformintegration (unterstützt Discord, X, Telegram usw.).
Vertrauensengine: Kombination aus automatisierten Token-Transaktionen zur Bewertung und Verwaltung von Vertrauensbewertungen.
4) Andere Agentenanwendungen
Dezentralisierter Fähigkeitserwerb: Anreize für die Entwicklung von Werkzeugen und Datensätzen durch Belohnungsmechanismen, wie z. B. die Erstellung von Fähigkeitsarchiven und Protokollnavigation.
Vorhersagemarktagenten: Kombination von Vorhersagemärkten mit autonomen Handelsagenten, wie Gnosis und Autonolas, die On-Chain-Vorhersage- und Antwortdienste unterstützen.
Agent Governance: Automatische Analyse von Vorschlägen und Abstimmungen durch Agenten in DAOs.
Tokenisierte Agenten: Agenteneinkommen wird geteilt, wie MyShell und das Virtuals-Protokoll, das ein Dividendenmodell unterstützt.
DeFi-Intents-Management: Agenten optimieren die Benutzererfahrung in einer Multi-Chain-Umgebung und führen Trades automatisch aus.
Selbstgesteuerte Token-Emission: Agenten geben Tokens aus, um die Marktattraktivität der Tokens zu erhöhen.
Autonome Künstler: wie Botto, der Community-Abstimmungen und On-Chain-NFT-Prägungen kombiniert und die Erstellung und Verteilung von Agenten unterstützt.
Ökonomisierte Spielagenten: AI Arena usw. kombinieren Verstärkungslernen mit Nachahmungslernen, um 24/7 Online-Spielwettbewerbe zu gestalten.
6. Aktuelle Dynamiken und Ausblicke
Mehrere Projekte erkunden Schnittstellen zwischen Blockchain und KI, mit einer Vielzahl von Anwendungsfeldern. In der Folge wird speziell über On-Chain-KI-Agenten diskutiert. 1) Vorhersagefähigkeiten: Vorhersagen sind entscheidend für Entscheidungen. Traditionelle Vorhersagen werden in statistische und Urteilsvorhersagen unterteilt, wobei letztere auf Experten angewiesen sind, was kostspielig und langsam ist.
Forschungsfortschritt:
Durch Nachrichtenabruf und verstärktes Schließen steigt die Vorhersagegenauigkeit großer Sprachmodelle (LLMs) von 50 % auf 71,5 %, was der menschlichen Vorhersage von 77 % nahekommt.
Integration von 12 Modellen, deren Vorhersageleistung nahe am menschlichen Team liegt, zeigt die Verbesserung der Zuverlässigkeit durch „kollektive Intelligenz“.
2) Rollenspiel (Roleplay)
LLMs zeigen herausragende Leistungen im Rollenspielbereich, kombinieren soziale Intelligenz und Gedächtnismechanismen und können komplexe Interaktionen simulieren.
Anwendungen: Kann für Rollensimulation, Spielinteraktionen und personalisierte Dialoge verwendet werden.
Methoden: Kombination aus retrieval-augmented generation (RAG) und Dialogengineering zur Optimierung der Leistung durch Few-Shot-Prompts.
Innovation:
RoleGPT extrahiert dynamisch den Kontext von Rollen, um die Realitätsnähe zu erhöhen.
Character-LLM rekreiert die Eigenschaften historischer Figuren mit Hilfe biografischer Daten und stellt die Charaktere präzise dar.
Diese Technologien erweitern die Anwendung von KI in Bereichen wie soziale Simulationen und personalisierte Interaktionen.
Aus der (Character-LLM)-Studie
RPLA (Role-Playing Language Agent) Anwendungen
Hier ist eine kurze Liste von RPLA-Anwendungen:
Interaktive NPCs im Spiel: Erstellung dynamischer Charaktere mit emotionaler Intelligenz zur Steigerung der Spielerimmersion.
Simulation historischer Figuren: Rekreation historischer Persönlichkeiten wie Sokrates oder Kleopatra für Bildungs- oder explorative Dialoge.
Geschichtenerzähler-Assistent: Bietet Autoren, RPG-Spielern und Kreativen reichhaltige Unterstützung bei Erzählungen und Dialogen.
Virtuelle Darstellungen: Darstellung von Schauspielern oder öffentlichen Figuren in interaktiven Theaterstücken, virtuellen Veranstaltungen usw.
KI-Kollaboration: Zusammenarbeit mit KI zur Schaffung von Kunst, Musik oder Geschichten in bestimmten Stilen.
Sprachpartner: Simulation von Muttersprachlern zur Bereitstellung immersiver Sprachübungen.
Soziale Simulation: Konstruktion zukünftiger oder hypothetischer Gesellschaften, Testen kultureller, ethischer oder verhaltensbezogener Szenarien.
Kundenspezifische virtuelle Begleiter: Erstellung von personalisierten Assistenten oder Partnern mit einzigartigen Persönlichkeiten, Eigenschaften und Erinnerungen.
7. Fragen zur KI-Ausrichtung
Die Bewertung, ob LLMs den menschlichen Werten entsprechen, ist eine komplexe Aufgabe, die aufgrund der Vielfalt und Offenheit der tatsächlichen Anwendungsfälle herausfordernd ist. Die Gestaltung umfassender Ausrichtungstests erfordert erhebliche Anstrengungen, aber vorhandene statische Testdatensätze können neue Probleme nicht zeitnah widerspiegeln.
Derzeit wird AI-Ausrichtung häufig durch externe menschliche Aufsicht erreicht, wie zum Beispiel OpenAIs RLHF (Reinforcement Learning from Human Feedback) Ansatz, der sechs Monate dauert und viele Ressourcen in Anspruch nimmt, um die Ausrichtungsoptimierung von GPT-4 zu erreichen.
Es gibt auch Forschungen, die versuchen, menschliche Aufsicht zu reduzieren, indem sie größere LLMs zur Überprüfung nutzen, aber neue Ansätze zielen darauf ab, die Ausrichtung von Modellen durch Agenten-Rahmen zu analysieren. Zum Beispiel:
1) ALI-Agent-Rahmen
Durch dynamische Generierung realistischer Szenen zur Erkennung subtiler oder „Long-Tail“-Risiken werden die Einschränkungen traditioneller statischer Tests überwunden.
Zwei-Phasen-Prozess:
Szenarien generieren: Generieren potenzieller Risikoszenarien basierend auf Datensätzen oder Webabfragen, wobei das Gedächtnismodul frühere Bewertungsprotokolle abruft.
Szenario-Optimierung: Wenn keine Probleme mit der Ausrichtung festgestellt werden, werden Szenarien durch Feedback des Zielmodells iterativ optimiert.
Modulzusammensetzung: Gedächtnismodul, Werkzeugmodul (wie Websuche) und Aktionsmodul. Experimente zeigen, dass sie effektiv nicht erkannte Ausrichtungsprobleme in LLMs aufdecken können.
2) MATRIX-Methoden
Basierend auf einem „Multi-Rollenspiel“-Selbstausrichtungsansatz, inspiriert von soziologischen Theorien, um Werte durch die Simulation multipolarer Interaktionen zu verstehen.
Kernmerkmale:
Monopolylogue-Methode: Ein einzelnes Modell spielt mehrere Rollen und bewertet soziale Auswirkungen.
Soziale Regulatoren: Aufzeichnung von Interaktionsregeln und Simulationsergebnissen.
Innovation: Abkehr von vordefinierten Regeln durch Simulation interaktiver Gestaltung des sozialen Bewusstseins von LLMs und Feinabstimmung von Modellen mit Simulationsdaten zur schnellen Selbstanpassung. Experimente zeigen, dass die MATRIX-Ausrichtung besser abschneidet als bestehende Methoden und in bestimmten Benchmark-Tests GPT-4 übertrifft.
Aus der (MATRIX-Studie)
Es gibt noch viele Studien zur Ausrichtung von KI-Agenten, die es wert sein könnten, in einem eigenen Artikel behandelt zu werden.
Governance und Organisationen verlassen sich auf Standardarbeitsanweisungen (SOP), um Aufgaben zu koordinieren und Verantwortlichkeiten zuzuweisen. Beispielsweise verwendet ein Produktmanager in einem Softwareunternehmen SOPs, um den Markt und Benutzerbedürfnisse zu analysieren und Anforderungen an Produkte (PRD) zu erstellen, um den Entwicklungsprozess zu steuern. Diese Struktur eignet sich für Multi-Agenten-Rahmen wie MetaGPT, in dem die Rollen der Agenten klar definiert sind, mit entsprechenden Werkzeugen und Planungsfähigkeiten, die durch Feedback optimiert werden.
Robotertechnik basierte agentenbasierte Architekturen verbessern die Leistung von Robotern in komplexer Aufgabenplanung und adaptiven Interaktionen. Sprachbedingte Roboterpolitiken helfen Robotern, die Umwelt zu verstehen, und erzeugen umsetzbare Aktionssequenzen basierend auf den Anforderungen der Aufgaben.
Architekturrahmen: LLMs kombiniert mit klassischer Planung können natürliche Sprachbefehle effektiv analysieren und in ausführbare Aufgabenfolgen umwandeln. Der SayCan-Rahmen kombiniert verstärkendes Lernen und Fähigkeitsplanung, sodass Roboter Aufgaben in der realen Welt ausführen können und die Durchführbarkeit und Anpassungsfähigkeit der Befehle gewährleistet ist. Der Innere Monolog verbessert die Anpassungsfähigkeit des Roboters weiter, indem er Handlungen durch Feedback anpasst und Selbstkorrekturen ermöglicht.
Beispielrahmen: Der SayCan-Rahmen ermöglicht es Robotern, bei natürlichen Sprachbefehlen Aufgaben zu bewerten und auszuführen (z. B. Getränke vom Tisch zu nehmen) und sicherzustellen, dass sie mit den tatsächlichen Fähigkeiten übereinstimmen.
SayPlan: SayPlan plant effizient mehrraumige Aufgaben unter Verwendung von 3DSGs, erhält das räumliche Kontextbewusstsein und validiert Pläne, um die Ausführung von Aufgaben in weitreichenden Räumen zu gewährleisten.
Inner Monologue: Dieser Rahmen optimiert die Ausführung durch Echtzeit-Feedback und passt sich Umweltveränderungen an, geeignet für Aufgaben in der Küche und Desktop-Neuanordnung.
RoCo: Eine Zero-Shot-Multi-Roboter-Kooperationsmethode, die natürliche Sprachschlüsse und Bewegungsplanung kombiniert, um Unteraufgabenpläne zu erstellen und durch Umgebungsvalidierung zu optimieren, um die Durchführbarkeit sicherzustellen.
Die Studie (Empowering Biomedical Discovery with AI Agents) schlägt einen Multi-Agenten-Rahmen vor, der Werkzeuge und Experten kombiniert und wissenschaftliche Entdeckungen unterstützt. Der Artikel beschreibt fünf Kooperationsansätze:
Brainstorming-Agenten
Expertenberatungsagenten
Forschungs-Debattenagenten
Runder Tisch Agenten
Autonome Laboragenten
Der Artikel diskutiert auch die Ebenen der Autonomie von KI-Agenten:
Level 0: ML-Modelle helfen Wissenschaftlern, Hypothesen zu formulieren, wie AlphaFold-Multimer, das Proteininteraktionen vorhersagt.
Level 1: Agent als Assistent zur Unterstützung von Aufgaben und Zielsetzungen. ChemCrow erweitert den Aktionsraum mithilfe von maschinellen Lernwerkzeugen zur Unterstützung der organischen Chemieforschung und entdeckt erfolgreich neue Pigmente.
Level 2: In der Level 2-Phase arbeitet der KI-Agent mit Wissenschaftlern zusammen, um Hypothesen zu verfeinern, Hypothesentests durchzuführen und Werkzeuge für wissenschaftliche Entdeckungen zu verwenden. Coscientist ist ein intelligenter Agent, der auf mehreren LLMs basiert und in der Lage ist, komplexe Experimente autonom zu planen, zu entwerfen und durchzuführen, indem er Werkzeuge wie Internet, APIs und die Zusammenarbeit mit anderen LLMs nutzt, sogar Hardware direkt steuert. Seine Fähigkeiten kommen in der chemischen Syntheseplanung, der Suche nach Hardwaredokumenten, der Ausführung von Hochstbefehlen, der Flüssigkeitshandhabung und der Lösung komplexer wissenschaftlicher Probleme zum Ausdruck.
Level 3: In der Level 3-Phase können KI-Agenten über den aktuellen Forschungsrahmen hinausgehen und neue Hypothesen entwickeln. Obwohl diese Phase noch nicht erreicht ist, könnte die Optimierung ihrer Arbeit den Fortschritt der KI-Entwicklung beschleunigen.
8, Zusammenfassung: Die Zukunft von KI-Agenten
KI-Agenten verändern das Konzept und die Anwendung von Intelligenz und gestalten Entscheidungen und Autonomie neu. Sie sind aktive Teilnehmer in Bereichen wie wissenschaftlichen Entdeckungen und Governance-Rahmen und fungieren nicht nur als Werkzeuge, sondern auch als Kooperationspartner. Mit dem technologischen Fortschritt müssen wir neu überdenken, wie wir die Macht dieser Agenten im Gleichgewicht mit potenziellen ethischen und sozialen Fragestellungen halten, um sicherzustellen, dass ihre Auswirkungen kontrollierbar sind und die technologische Entwicklung vorantreiben sowie Risiken minimieren.