In den letzten Jahren hat sich das Konzept der autonomen Agenten (LLM) in den Bereichen Architektur, Gedächtnis, Wahrnehmung, Schlussfolgerung und Handlung kontinuierlich weiterentwickelt und zeigt in mehreren Bereichen das Potenzial, Möglichkeiten neu zu definieren. Wie könnte dies in dem von den Märkten beobachteten AI-Agenten angewendet werden? Dieser Artikel stammt aus einem von Rituals verfassten Beitrag und wurde von Baihua Blockchain organisiert und übersetzt. (Vorgeschichte: Apple plant die Veröffentlichung einer verbesserten Version von „LLM Siri“ im Jahr 2025: ein leistungsstarker AI-Lebensassistent, der stärker ist als ChatGPT) (Hintergrundinformation: Warum wird AI Meme zu einem riesigen Markt? - ai16z Gründer) In den letzten Jahren hat die Bedeutung des Konzepts des Agenten in verschiedenen Bereichen wie Philosophie, Spielen und künstlicher Intelligenz zugenommen. Im traditionellen Sinne bezieht sich ein Agent auf ein Wesen, das autonom handeln, Entscheidungen treffen und Intentionen haben kann, Eigenschaften, die oft mit Menschen verbunden sind. Im Bereich der künstlichen Intelligenz wird die Bedeutung des Agenten komplexer. Mit dem Aufkommen autonomer Agenten sind diese Agenten in der Lage, in ihrer Umgebung zu beobachten, zu lernen und unabhängig zu handeln, wodurch das zuvor abstrakte Konzept des Agenten eine konkrete Form in rechnergestützten Systemen annimmt. Diese Agenten benötigen kaum menschliches Eingreifen und zeigen eine Fähigkeit, die zwar kein Bewusstsein hat, aber eine rechnerische Absicht aufweist, die es ihnen ermöglicht, Entscheidungen zu treffen, aus Erfahrungen zu lernen und auf immer komplexere Weise mit anderen Agenten oder Menschen zu interagieren. Dieser Artikel wird das aufstrebende Feld der autonomen Agenten untersuchen, insbesondere Agenten, die auf großen Sprachmodellen (LLM) basieren, sowie deren Einfluss in verschiedenen Bereichen wie Spielen, Governance, Wissenschaft und Robotik. Aufbauend auf den grundlegenden Prinzipien von Agenten wird dieser Artikel die Struktur und Anwendungen von KI-Agenten analysieren. Durch diese kategorisierende Perspektive können wir besser verstehen, wie diese Agenten Aufgaben ausführen, Informationen verarbeiten und sich in ihren spezifischen Betriebsrahmen kontinuierlich weiterentwickeln. Die Ziele dieses Artikels umfassen zwei Aspekte: Bereitstellung einer systematischen Übersicht über KI-Agenten und ihre strukturellen Grundlagen, mit einem besonderen Fokus auf die Komponenten Gedächtnis, Wahrnehmung, Schlussfolgerung und Planung. Untersuchung der neuesten Trends in der Forschung zu KI-Agenten, wobei Anwendungsfälle hervorgehoben werden, die das Potenzial zur Neudefinition von Möglichkeiten zeigen. Hinweis: Aufgrund der Länge des Artikels wurde dieser Text im Vergleich zum Original gekürzt. Forschungstrends zu Agenten Die Entwicklung von Agenten, die auf großen Sprachmodellen (LLM) basieren, kennzeichnet einen bedeutenden Fortschritt in der Forschung zur künstlichen Intelligenz und umfasst multiple Fortschritte von symbolischem Schlussfolgern, reaktiven Systemen, verstärkendem Lernen bis hin zu adaptivem Lernen. Symbolische Agenten: Simulieren menschliches Schlussfolgern durch Regeln und strukturierte Kenntnisse, geeignet für spezifische Probleme (wie medizinische Diagnosen), aber schwierig in komplexen, unsicheren Umgebungen. Reaktive Agenten: Reagieren schnell auf die Umgebung durch einen „Wahrnehmung – Aktion“-Zyklus, geeignet für schnelle Interaktionsszenarien, können jedoch komplexe Aufgaben nicht ausführen. Verstärkendes Lernen Agenten: Optimieren Verhalten durch Versuch und Irrtum, weit verbreitet in Spielen und Robotik, aber lange Trainingszeiten, geringe Stichprobeneffizienz und schlechte Stabilität. Auf LLM basierende Agenten: LLM-Agenten kombinieren symbolisches Schlussfolgern, Feedback und adaptives Lernen und verfügen über Fähigkeiten zum Lernen aus wenigen oder sogar null Beispielen. Sie werden in Bereichen wie Softwareentwicklung, wissenschaftlicher Forschung usw. weit verbreitet eingesetzt, sind für dynamische Umgebungen geeignet und können mit anderen Agenten zusammenarbeiten. Agentenstruktur Moderne Agentenarchitekturen bestehen aus mehreren Modulen, die ein integriertes System bilden. 1. Profilmodul Das Profilmodul bestimmt das Verhalten des Agenten, indem es Rollen oder Persönlichkeiten zuweist, um Konsistenz zu gewährleisten, und ist geeignet für Szenarien, die eine stabile Persönlichkeit erfordern. Die Profile von LLM-Agenten lassen sich in drei Kategorien einteilen: demografische Rollen, virtuelle Rollen und personalisierte Rollen. Entnommen aus dem Artikel „Von Rollen zu Personalisierungen“ Die Rolle zur Leistungssteigerung Die Rolleneinstellung kann die Leistung und Schlussfolgerungsfähigkeit des Agenten erheblich steigern. Zum Beispiel bietet LLM als Experte tiefere, kontextgerechte Antworten. In Mehr-Agenten-Systemen fördert die Rollenauswahl die Zusammenarbeit und erhöht die Erfolgsquote bei der Aufgabenerfüllung sowie die Interaktionsqualität. Methoden zur Erstellung von Profilen LLM-Agentenprofile können auf folgende Weise erstellt werden: Manuelle Gestaltung: Manuelles Festlegen von Rollenmerkmalen. LLM-Generierung: Automatische Erweiterung von Rolleneinstellungen durch LLM. Datensatz-Ausrichtung: Aufbau basierend auf realen Datensätzen, um die Interaktionsauthentizität zu steigern. 2. Gedächtnismodul Gedächtnis ist das Herzstück von LLM-Agenten und unterstützt adaptive Planung und Entscheidungsfindung. Die Gedächtnisstruktur simuliert menschliche Prozesse und wird hauptsächlich in zwei Kategorien unterteilt: Einheitliches Gedächtnis: Kurzzeitgedächtnis, das die neuesten Informationen verarbeitet. Optimiert durch Textextraktion, Gedächtniszusammenfassungen und Modifikation der Aufmerksamkeitsmechanismen, ist es jedoch durch das Kontextfenster eingeschränkt. Gemischtes Gedächtnis: Kombination aus Kurzzeit- und Langzeitgedächtnis, wobei das Langzeitgedächtnis in externen Datenbanken gespeichert wird, um eine effiziente Erinnerung zu ermöglichen. Häufige Gedächtnisspeicherformate sind: Natürliche Sprache: Flexibel und bedeutungsvoll. Eingebettete Vektoren: Erleichtert die schnelle Suche. Datenbank: Unterstützt Abfragen durch strukturierte Speicherung. Strukturierte Listen: Organisiert in Listen- oder Hierarchieform. Gedächtnisoperationen Agenten interagieren mit Gedächtnis durch folgende Operationen: Gedächtnis lesen: Abrufen relevanter Informationen zur Unterstützung fundierter Entscheidungen. Gedächtnis schreiben: Speichern neuer Informationen, um Wiederholungen und Überläufe zu vermeiden. Gedächtnis reflektieren: Zusammenfassen von Erfahrungen zur Stärkung der abstrakten Schlussfolgerungsfähigkeit. Basierend auf dem Artikel „Generative Agenten“ Forschungsbedeutung und Herausforderungen Obwohl Gedächtnissysteme die Fähigkeiten intelligenter Agenten verbessern, bringen sie auch Forschungsherausforderungen mit sich: Erweiterbarkeit und Effizienz: Gedächtnissysteme müssen eine große Menge an Informationen unterstützen und eine schnelle Abrufung gewährleisten. Wie man die Abrufung von Langzeitgedächtnis optimiert, bleibt ein Forschungsschwerpunkt. Umgang mit Kontextbeschränkungen: Aktuelle LLM sind durch das Kontextfenster eingeschränkt und haben Schwierigkeiten, riesige Gedächtnisse zu verwalten. Die Forschung konzentriert sich auf dynamische Aufmerksamkeitsmechanismen und Zusammenfassungstechniken, um die Gedächtnisverarbeitungsfähigkeiten zu erweitern. Verzerrungen und Drift im Langzeitgedächtnis: Gedächtnis kann Verzerrungen aufweisen, die dazu führen, dass Informationen priorisiert verarbeitet werden und Gedächtnisdrift entsteht. Regelmäßige Updates und Korrekturen sind erforderlich, um das Gleichgewicht der intelligenten Agenten zu erhalten. Katastrophales Vergessen: Neue Daten überschreiben alte Daten und führen zum Verlust kritischer Informationen. Es ist notwendig, durch Erfahrungsspiel und Gedächtniskonsolidierungstechniken kritische Erinnerungen zu stärken. 3. Wahrnehmungsfähigkeiten LLM-Agenten verbessern ihr Verständnis und ihre Entscheidungsfähigkeit durch die Verarbeitung vielfältiger Datenquellen, ähnlich wie Menschen auf sensorische Eingaben angewiesen sind. Multimodale Wahrnehmung integriert Texteingaben, visuelle und auditive Eingaben und verbessert die Fähigkeit der Agenten, komplexe Aufgaben auszuführen. Hier sind die Haupttypen von Eingaben und ihre Anwendungen: Texteingaben Text ist die Hauptkommunikationsform von LLM-Agenten. Obwohl Agenten über fortgeschrittene Sprachfähigkeiten verfügen, bleibt das Verständnis der impliziten Bedeutung hinter Anweisungen eine Herausforderung. Implizites Verständnis: Anpassung von Präferenzen durch verstärkendes Lernen, um verschwommene Anweisungen zu verarbeiten und Absichten zu erraten. Null- und Wenigbeispiel-Fähigkeiten: Reagieren auf neue Aufgaben ohne zusätzliche Schulung, geeignet für vielfältige Interaktionsszenarien. Visuelle Eingaben Visuelle Wahrnehmung ermöglicht es Agenten, Objekte und räumliche Beziehungen zu verstehen. Bild-zu-Text: Generierung von Textbeschreibungen zur Verarbeitung visueller Daten, kann jedoch Details verlieren. Auf Transformatoren basierende Kodierung: Wie Vision Transformer wandeln Bilder in textkompatible Tokens um. Brückentools: Wie BLIP-2 und Flamingo nutzen Zwischenschichten zur Optimierung der visuellen und textuellen Schnittstelle. Auditive Eingaben Auditive Wahrnehmung ermöglicht es Agenten, Geräusche und Sprache zu identifizieren, besonders in interaktiven und risikobehafteten Szenarien wichtig. Spracherkennung und -synthese: Wie Whisper (Sprache zu Text) und FastSpeech (Text zu Sprache). Spektralanalyse: Wandelt Audiospektren in Bilder um, was die Fähigkeit zur Analyse auditiver Signale verbessert. Forschungsherausforderungen und Überlegungen zur multimodalen Wahrnehmung: Datenausrichtung und Integration: Multimodale Daten erfordern eine effiziente Ausrichtung, um Wahrnehmungs- und Reaktionsfehler zu vermeiden. Die Forschung konzentriert sich auf die Optimierung von multimodalen Transformatoren und Kreuzaufmerksamkeits-Schichten. Erweiterbarkeit und Effizienz: Die Anforderungen an die multimodale Verarbeitung sind hoch, insbesondere bei der Verarbeitung hochauflösender Bilder und Audiodaten. Entwicklung ressourcenschonender Lösungen ist erforderlich.