Verfasst von: Zeke, YBB Capital Researcher
Eins, Beginn mit dem Neuen und dem Alten.
Im vergangenen Jahr hat sich der Krypto-Bereich aufgrund eines Narrativs auf Anwendungsebene, das nicht mit der Geschwindigkeit des Infrastrukturwachstums übereinstimmte, allmählich zu einem Spiel um die Aufmerksamkeit von Ressourcen entwickelt. Von Silly Dragon zu Goat, von Pump.fun zu Clanker hat die Vorliebe für Neues und das Verlangen nach Aufmerksamkeit diesen Wettkampf intensiviert. Aus dem banalsten Ansatz der Aufmerksamkeitsmonetarisierung heraus hat sich schnell ein einheitliches Plattformmodell für Nachfrager und Anbieter von Aufmerksamkeit entwickelt, bis hin zu silicon-basierten Biologien, die zu neuen Inhaltsanbietern werden. In den bizarren Trägern von Meme-Coins ist schließlich eine Existenz aufgetaucht, die es Kleinanlegern und VCs ermöglicht, Konsens zu erreichen: AI-Agenten.
Aufmerksamkeit ist letztlich ein Nullsummenspiel, aber Spekulation kann tatsächlich das unkontrollierte Wachstum von Dingen fördern. In unserem Artikel über UNI haben wir den Beginn des letzten Goldenen Zeitalters der Blockchain überprüft, das sprunghafte Wachstum von DeFi wurde durch die Eröffnung der LP-Mining-Ära von Compound Finance ausgelöst. Das Ein- und Aussteigen aus Tausenden oder sogar Zehntausenden von Pools mit Apy war die ursprünglichste Art des Spiels auf der Blockchain in dieser Zeit, obwohl die endgültige Situation war, dass verschiedene Pools zusammenbrachen. Aber der verrückte Zustrom von Goldgräbern hat der Blockchain tatsächlich eine beispiellose Liquidität hinterlassen, und DeFi hat schließlich die bloße Spekulation überwunden und einen ausgereiften Markt geschaffen, der in Bereichen wie Zahlung, Handel, Arbitrage und Staking die finanziellen Bedürfnisse der Benutzer erfüllt. Und AI-Agenten befinden sich in dieser Phase des unkontrollierten Wachstums; wir suchen nach Möglichkeiten, wie Crypto besser mit AI integriert werden kann und letztendlich die Anwendungsebene auf neue Höhen heben kann.
Zwei, Wie Agenten autonom handeln können
In unserem vorherigen Artikel haben wir kurz über die Ursprünge von AI Meme gesprochen: Truth Terminal, und über die Aussichten für die Zukunft von AI-Agenten, während sich dieser Artikel zunächst auf den AI-Agenten selbst konzentriert.
Wir beginnen zunächst mit der Definition von AI-Agenten. Agent ist ein relativ altes, aber unklar definiertes Wort im Bereich AI, das hauptsächlich die Autonomie betont, d.h. jede AI, die in der Lage ist, die Umgebung wahrzunehmen und eine Reaktion zu zeigen, kann als Agent bezeichnet werden. In der heutigen Definition ist AI-Agent näher an intelligenten Agenten, d.h. ein System zu schaffen, das menschliche Entscheidungen im großen Modell imitiert. In der akademischen Welt wird dieses System als vielversprechendster Weg zu AGI (Allgemeine Künstliche Intelligenz) angesehen.
In den frühen GPT-Versionen konnten wir deutlich spüren, dass große Modelle den Menschen ähnlich sind, aber bei der Beantwortung vieler komplexer Fragen konnten große Modelle nur einige scheinbar wahrscheinliche Antworten geben. Der wesentliche Grund dafür ist, dass die damaligen großen Modelle auf Wahrscheinlichkeiten und nicht auf Kausalität basierten, und sie fehlten die Fähigkeiten, Werkzeuge zu verwenden, zu erinnern, zu planen, die Menschen besitzen. AI-Agenten können diese Mängel ausgleichen. Zusammengefasst: AI-Agent (intelligent) = LLM (großes Modell) + Planung + Gedächtnis + Werkzeuge.
Große Modelle, die auf Prompt basieren, sind eher wie ein statischer Mensch, der erst dann lebendig wird, wenn wir Eingaben machen. Das Ziel des Agenten ist es, wie ein realistischeres menschliches Wesen zu agieren. Heutzutage basieren die Agenten in der Branche hauptsächlich auf den auf Meta-Open Llama 70b oder 405b Versionen (mit unterschiedlichen Parametern) feinabgestimmten Modellen, die über Gedächtnis- und API-Zugriffskompetenzen verfügen, während sie in anderen Aspekten möglicherweise menschliche Hilfe oder Eingaben benötigen (einschließlich der Interaktion und Zusammenarbeit mit anderen Agenten). Daher sehen wir, dass die Hauptagenten in der Branche immer noch in Form von KOLs in sozialen Netzwerken existieren. Um die Agenten menschlicher zu machen, sind Planungs- und Aktionsfähigkeiten erforderlich, wobei der Teil der Denkketten in der Planung von entscheidender Bedeutung ist.
Drei, Denkketten (Chain of Thought, CoT)
Das Konzept der Denkketten (Chain of Thought, CoT) tauchte erstmals in einem 2022 veröffentlichten Papier von Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models) auf, das darauf hinweist, dass die Generierung einer Reihe von Zwischenfolgerungen die Schlussfolgerungsfähigkeit des Modells verstärken kann und dem Modell hilft, komplexe Probleme besser zu verstehen und zu lösen.
Ein typisches CoT-Prompt besteht aus drei Teilen: einer klaren Aufgabenbeschreibung, logischen Begründungen, die die theoretische Grundlage oder das Prinzip zur Unterstützung der Lösung der Aufgabe bilden, und konkreten Lösungsvorschlägen. Diese strukturierte Herangehensweise hilft dem Modell, die Anforderungen der Aufgabe zu verstehen und durch logisches Denken schrittweise zu einer Antwort zu gelangen, wodurch die Effizienz und Genauigkeit der Problemlösung erhöht wird. CoT eignet sich besonders gut für Aufgaben, die eine tiefgehende Analyse und mehrstufiges Denken erfordern, wie zum Beispiel mathematische Problemlösungen oder das Schreiben von Projektberichten. Bei einfachen Aufgaben könnte CoT keinen signifikanten Vorteil bringen, aber bei komplexen Aufgaben kann es die Leistung des Modells erheblich steigern, indem die Fehlerquote durch schrittweise Lösungsstrategien gesenkt wird und die Qualität der Aufgabenbewältigung verbessert wird.
Beim Aufbau von AI-Agenten spielt CoT eine entscheidende Rolle. Der AI-Agent muss die erhaltenen Informationen verstehen und darauf basierend angemessene Entscheidungen treffen. CoT hilft Agenten, Eingabedaten effektiv zu verarbeiten und zu analysieren, indem es eine geordnete Denkweise bietet, die Analyseergebnisse in konkrete Handlungsanleitungen umwandelt. Diese Methode erhöht nicht nur die Zuverlässigkeit und Effizienz der Entscheidungen des Agenten, sondern verbessert auch die Transparenz des Entscheidungsprozesses, sodass das Verhalten des Agenten vorhersehbarer und nachverfolgbarer wird. CoT ermöglicht es Agenten, die Aufgaben in mehrere kleine Schritte zu zerlegen, was dazu beiträgt, jeden Entscheidungspunkt detailliert zu betrachten und Fehlerentscheidungen aufgrund von Informationsüberlastung zu reduzieren. CoT macht den Entscheidungsprozess des Agenten transparenter, sodass Benutzer die Entscheidungsgrundlagen des Agenten besser verstehen können. Im Umgang mit der Umwelt ermöglicht CoT dem Agenten, kontinuierlich neue Informationen zu lernen und seine Verhaltensstrategien anzupassen.
CoT ist eine effektive Strategie, die nicht nur die Schlussfolgerungsfähigkeit großer Sprachmodelle verbessert, sondern auch eine wichtige Rolle beim Aufbau intelligenterer, zuverlässigerer AI-Agenten spielt. Durch die Nutzung von CoT können Forscher und Entwickler intelligentere Systeme schaffen, die sich besser an komplexe Umgebungen anpassen und eine hohe Autonomie aufweisen. CoT hat in der praktischen Anwendung seine einzigartigen Vorteile gezeigt, insbesondere beim Umgang mit komplexen Aufgaben. Durch die Zerlegung von Aufgaben in eine Reihe kleiner Schritte wird nicht nur die Genauigkeit der Problemlösung erhöht, sondern auch die Erklärbarkeit und Kontrollierbarkeit des Modells verbessert. Diese schrittweise Problemlösungsmethode kann erheblich die Fehlerquote senken, die bei komplexen Aufgaben aufgrund von Informationsüberlastung oder -komplexität entstehen kann. Gleichzeitig verbessert diese Methode auch die Rückverfolgbarkeit und Verifizierbarkeit der gesamten Lösung.
Die Kernfunktion von CoT besteht darin, Planung, Handeln und Beobachten miteinander zu verknüpfen und die Lücke zwischen Schlussfolgerungen und Handlungen zu schließen. Diese Denkweise erlaubt es dem AI-Agenten, wirksame Gegenmaßnahmen zu entwickeln, wenn er vorhersehbare Anomalien antizipiert, sowie gleichzeitig neue Informationen zu sammeln und voreingestellte Vorhersagen zu überprüfen, um neue Schlussfolgerungsgrundlagen zu bieten. CoT ist wie ein leistungsstarker Präzisions- und Stabilitätsmotor, der dem AI-Agenten hilft, in komplexen Umgebungen effizient zu arbeiten.
Vier, Die richtige Pseudo-Nachfrage
Mit welchen Aspekten der AI-Technologiestack sollte Crypto tatsächlich kombiniert werden? In dem Artikel des letzten Jahres hielt ich die Dezentralisierung von Rechenleistung und Daten für einen entscheidenden Schritt zur Kostensenkung für kleine Unternehmen und individuelle Entwickler, während wir in diesem Jahr in der von Coinbase zusammengestellten Crypto x AI-Nischenmärkten eine detailliertere Unterteilung gesehen haben:
(1) Berechnungsebene (bezieht sich auf Netzwerke, die sich auf die Bereitstellung von Grafikprozessorressourcen (GPU) für AI-Entwickler konzentrieren);
(2) Datenebene (bezieht sich auf Netzwerke, die den dezentralen Zugang, die Orchestrierung und die Validierung von AI-Datenpipelines unterstützen);
(3) Middleware-Ebene (bezieht sich auf Plattformen oder Netzwerke, die die Entwicklung, Bereitstellung und das Hosting von KI-Modellen oder Agenten unterstützen);
(4) Anwendungsebene (bezieht sich auf benutzerorientierte Produkte, die auf der Blockchain AI-Mechanismen nutzen, egal ob B2B oder B2C).
In diesen vier Schichten hat jede Schicht eine grandiose Vision, deren Ziel es zusammengefasst ist, gegen die Dominanz der Silicon Valley-Riesen im nächsten Internetzeitalter anzukämpfen. Wie ich letztes Jahr sagte, müssen wir wirklich akzeptieren, dass die Silicon Valley-Riesen exklusiv die Rechenleistung und Daten kontrollieren? In ihrem monopolisierten geschlossenen großen Modell ist das Innere ein schwarzes Kästchen. Wissenschaft, als die heute am meisten geglaubte Religion der Menschheit, wird in Zukunft jede Antwort des großen Modells von einem großen Teil der Menschen als Wahrheit angesehen, aber wie soll diese Wahrheit validiert werden? Nach der Vorstellung der Silicon Valley-Riesen werden die Rechte, die die Agenten letztendlich besitzen, jenseits der Vorstellungskraft liegen, wie das Recht, auf dein Wallet zuzugreifen, das Recht, Endgeräte zu verwenden, wie kann man sicherstellen, dass Menschen keine bösen Absichten haben?
Dezentralisierung ist die einzige Antwort, aber manchmal müssen wir uns fragen, wie viele Käufer dieser grandiosen Visionen es gibt. In der Vergangenheit konnten wir die Fehler, die durch Idealisierung entstanden sind, durch Token ausgleichen, ohne uns um den kommerziellen Kreislauf kümmern zu müssen. Die aktuelle Situation ist jedoch sehr ernst, Crypto x AI muss sich besser an die Realität anpassen, wie sollte man beispielsweise die Leistungsverluste und Instabilität der Rechenleistung in einem ausgewogenen Angebot beider Enden angehen, um die Wettbewerbsfähigkeit mit zentralisierten Clouds zu erreichen? Wie viele echte Benutzer wird es im Datenebenenprojekt geben, wie kann man die Echtheit und Gültigkeit der bereitgestellten Daten überprüfen, und welche Kunden benötigen diese Daten? Die anderen beiden Ebenen folgen dem gleichen Prinzip; in dieser Ära benötigen wir nicht so viele scheinbar korrekte Pseudo-Nachfragen.
Fünf, Meme hat SocialFi hervorgebracht
Wie ich im ersten Abschnitt sagte, hat Meme auf superschnelle Weise eine SocialFi-Form geschaffen, die mit Web3 übereinstimmt. Friend.tech war die erste Dapp, die in dieser Runde von sozialen Anwendungen auf den Markt kam, aber sie scheiterte leider an einem hastigen Token-Design. Pump.fun hat die Machbarkeit einer reinen Plattform validiert, ohne Tokens oder Regeln. Die Nachfrage- und Angebotsseite der Aufmerksamkeit sind vereint; man kann auf der Plattform Meme-Bilder posten, live streamen, Tokens herausgeben, Kommentare hinterlassen und handeln, alles ist frei, Pump.fun erhebt nur eine Servicegebühr. Dies ist im Grunde mit dem Aufmerksamkeitswirtschaftsmodell von heutigen sozialen Medien wie YouTube und Instagram vergleichbar, nur dass sich die Gebührenobjekte unterscheiden; im Spielverlauf ist Pump.fun jedoch mehr Web3.
Base's Clanker ist der Gesamtkünstler, dank des integrierten Ökosystems, das von der Ökosystem selbst betrieben wird, hat Base seine eigene soziale Dapp als Unterstützung, wodurch ein vollständiger interner Kreislauf entsteht. Der Meme-Agent ist die 2.0-Form von Meme-Coins; Menschen sind immer auf der Suche nach Neuem, und Pump.fun befindet sich gerade im Mittelpunkt der Aufmerksamkeit. Aus der Perspektive des Trends ist es nur eine Frage der Zeit, bis silicon-basierte Biologien die vulgären Witze der carbon-basierten ersetzen.
Ich habe bereits unzählige Male über Base gesprochen, nur dass der Inhalt jedes Mal unterschiedlich ist. In der Zeitachse war Base nie ein Vorreiter, aber immer ein Gewinner.
Sechs, Was kann der Agent noch sein?
Aus pragmatischer Sicht ist es in der Zukunft für eine lange Zeit unmöglich, dass Agenten dezentralisiert werden. Betrachtet man den Aufbau von Agenten im traditionellen AI-Bereich, ist es kein einfaches Problem, das durch Dezentralisierung und Open Source gelöst werden kann. Es erfordert den Zugang zu verschiedenen APIs, um Inhalte von Web2 zu beziehen, und die Betriebskosten sind hoch. Das Design der Denkketten und die Zusammenarbeit mehrerer Agenten hängen in der Regel immer noch von einem Menschen als Vermittler ab. Wir werden eine lange Übergangsphase durchlaufen, bis eine geeignete Form der Integration entsteht, vielleicht wie bei UNI. Aber wie im vorherigen Artikel denke ich immer noch, dass Agenten einen großen Einfluss auf unsere Branche haben werden, genauso wie Cex in unserer Branche vorhanden ist, nicht korrekt, aber sehr wichtig.
Der letzte Monat von Stanford & Microsoft (AI-Agenten-Übersicht) beschreibt ausführlich die Anwendungen von Agenten in der Gesundheitsbranche, intelligenten Maschinen und virtuellen Welten. In den Anhängen dieses Artikels gibt es bereits viele Testfälle, in denen GPT-4V als Agent an der Entwicklung von Top-3A-Spielen beteiligt ist.
Man muss es nicht zu sehr erzwingen, wie schnell es sich mit der Dezentralisierung verbindet; ich hoffe vielmehr, dass die erste Puzzlestück, das der Agent vervollständigt, die Fähigkeit und Geschwindigkeit von unten nach oben sind. Wir haben so viele narrative Trümmer und leere Metaversen, die es zu füllen gilt, und in der richtigen Phase werden wir darüber nachdenken, wie wir es zu einem nächsten UNI machen können.