Autor: YBB Capital Researcher Zeke

Eins, begonnen mit der Abneigung gegen neue Aufmerksamkeit

Im vergangenen Jahr hat sich das Narrativ der Anwendungsschicht aufgrund eines Mangels an Übereinstimmung mit der explosiven Geschwindigkeit der Infrastruktur allmählich zu einem Wettbewerb um Aufmerksamkeit Ressourcen entwickelt. Von Silly Dragon bis Goat, von Pump.fun bis Clanker, die wechselnden Vorlieben der Aufmerksamkeit haben diesen Wettbewerb immer mehr intensiviert. Der Beginn war das banalste Auge-ziehende Monetarisierungsmodell, das sich schnell zu einem Plattformmodell entwickelte, das sowohl Nachfrage- als auch Angebotsseite der Aufmerksamkeit vereint, bis silikonbasierte Kreaturen zu neuen Anbietern von Inhalten wurden. In den skurrilen Trägersystemen von Meme Coins ist schließlich etwas aufgetaucht, das es Kleinanlegern und VCs ermöglicht, einen Konsens zu erreichen: AI-Agenten.

Aufmerksamkeit ist letztendlich ein Nullsummenspiel, obwohl Spekulation tatsächlich das wilde Wachstum von Dingen fördern kann. In unserem Artikel über UNI haben wir den Beginn des goldenen Zeitalters der Blockchain zurückblickend betrachtet. Das rasante Wachstum von DeFi stammt aus der Ära des LP-Mining, die durch Compound Finance eröffnet wurde. Das Ein- und Aussteigen in Tausende von verschiedenen Mining-Pools mit Apy von Tausenden oder sogar Zehntausenden war die ursprünglichste Spielweise in dieser Zeit, obwohl die endgültige Situation der Zusammenbruch der verschiedenen Pools war. Aber der wahnsinnige Zustrom von Goldgräbern hat der Blockchain tatsächlich eine noch nie dagewesene Liquidität verschafft, und DeFi hat schließlich die reine Spekulation verlassen und eine ausgereifte Bahn gebildet, die die finanziellen Bedürfnisse der Benutzer in Bezug auf Zahlungen, Transaktionen, Arbitrage, Staking usw. erfüllt. Und AI-Agenten befinden sich derzeit ebenfalls in dieser wilden Phase, in der wir erkunden, wie Crypto besser mit AI kombiniert werden kann, um letztendlich die Anwendungsschicht auf neue Höhen zu bringen.

Zwei, wie Agenten autonom werden können

In unserem vorherigen Artikel haben wir die Ursprünge von AI Meme: Truth Terminal und die Zukunft der AI-Agenten skizziert. Dieser Artikel konzentriert sich zunächst auf den AI-Agenten selbst.

Beginnen wir zunächst mit der Definition des AI-Agenten. Agent ist ein relativ altes, aber unklar definiertes Wort im AI-Bereich, das hauptsächlich die Autonomie (自主性) betont, d. h. jede AI, die in der Lage ist, die Umgebung wahrzunehmen und darauf zu reagieren, kann als Agent bezeichnet werden. In der heutigen Definition ist der AI-Agent näher am intelligenten Agenten, d. h. einem System, das großen Modellen ein Set zur Nachahmung menschlicher Entscheidungsfindung zuweist. In der akademischen Welt wird dieses System als der vielversprechendste Weg zur AGI (Allgemeine Künstliche Intelligenz) angesehen.

In den frühen Versionen von GPT konnten wir deutlich erkennen, dass große Modelle den Menschen sehr ähnlich sind, aber bei der Beantwortung vieler komplexer Fragen konnten diese Modelle nur einige vage Antworten geben. Der wesentliche Grund dafür ist, dass die damaligen großen Modelle auf Wahrscheinlichkeiten und nicht auf Kausalität basierten, und sie fehlten auch an Fähigkeiten, die Menschen haben, wie die Nutzung von Werkzeugen, Gedächtnis, Planung usw., während AI-Agenten diese Mängel ausgleichen können. Daher lässt sich dies in einer Formel zusammenfassen: AI-Agent (智能体) = LLM (大模型) + Planung (规划) + Gedächtnis (记忆) + Werkzeuge (工具).

Prompt-basiertes großes Modell ist eher wie ein statischer Mensch; erst wenn wir eingeben, hat es Leben. Das Ziel des Agenten ist es, ein realistischeres Mensch zu sein. Heutzutage basieren die Agenten in der Branche hauptsächlich auf den feinabgestimmten Modellen der Meta-Open-Source-Versionen Llama 70b oder 405b (mit unterschiedlichen Parametern), die über Gedächtnis und die Fähigkeit zur Nutzung von API-Tools verfügen. In anderen Aspekten benötigen sie möglicherweise die Hilfe oder Eingabe von Menschen (einschließlich der Interaktion und Zusammenarbeit mit anderen Agenten), sodass wir sehen können, dass die Hauptagenten in der Branche immer noch in Form von KOLs in sozialen Netzwerken existieren. Um Agenten menschenähnlicher zu machen, müssen sie Planungs- und Handlungskompetenzen integrieren, wobei die Denkketten in der Planung besonders entscheidend sind.

Drei, Denkketten (Chain of Thought, CoT)

Das Konzept der Denkketten (Chain of Thought, CoT) tauchte erstmals in einem 2022 veröffentlichten Google-Papier (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models) auf, das darauf hinwies, dass die Inferenzfähigkeit von Modellen durch die Erzeugung einer Reihe von zwischenliegenden Schritten verbessert werden kann, um den Modellen zu helfen, komplexe Probleme besser zu verstehen und zu lösen.

Ein typischer CoT-Prompt enthält drei Teile: eine klare Aufgabenbeschreibung, logische Begründungen, die die theoretischen Grundlagen oder Prinzipien zur Lösung der Aufgabe unterstützen, und spezifische Lösungsvorschläge. Diese strukturierte Vorgehensweise hilft dem Modell, die Anforderungen der Aufgabe zu verstehen, sich durch logisches Denken schrittweise der Antwort zu nähern und dadurch die Effizienz und Genauigkeit bei der Problemlösung zu verbessern. CoT eignet sich besonders für Aufgaben, die eine tiefgehende Analyse und mehrstufige Inferenz erfordern, wie z. B. das Lösen von mathematischen Problemen oder das Schreiben von Projektberichten. Bei einfachen Aufgaben kann CoT möglicherweise keinen offensichtlichen Vorteil bringen, aber bei komplexen Aufgaben kann es die Leistung des Modells erheblich verbessern und die Fehlerquote durch schrittweise Lösungstechniken reduzieren, was die Qualität der Aufgabenerledigung erhöht.

Beim Aufbau von AI-Agenten spielt CoT eine entscheidende Rolle. AI-Agenten müssen die empfangenen Informationen verstehen und darauf basierend fundierte Entscheidungen treffen. CoT bietet eine geordnete Denkweise, die Agenten hilft, Eingabedaten effektiv zu verarbeiten und zu analysieren und die Analyseergebnisse in spezifische Handlungsanleitungen umzuwandeln. Diese Methode erhöht nicht nur die Zuverlässigkeit und Effizienz der Entscheidungen des Agenten, sondern verbessert auch die Transparenz des Entscheidungsprozesses, wodurch das Verhalten des Agenten vorhersehbarer und nachvollziehbarer wird. CoT hilft Agenten, durch die Zerlegung von Aufgaben in mehrere kleine Schritte, die Überlegung jedes Entscheidungspunkts genau zu berücksichtigen und die Fehlerquote zu verringern, die durch Informationsüberflutung verursacht wird. CoT macht den Entscheidungsprozess des Agenten transparenter, sodass Benutzer den Entscheidungsgrundlagen des Agenten leichter folgen können. Bei der Interaktion mit der Umgebung ermöglicht CoT dem Agenten, ständig neue Informationen zu lernen und die Verhaltensstrategien anzupassen.

CoT als effektive Strategie hat nicht nur die Inferenzfähigkeit großer Sprachmodelle verbessert, sondern spielt auch eine wichtige Rolle beim Aufbau intelligenterer und zuverlässigerer AI-Agenten. Durch die Nutzung von CoT können Forscher und Entwickler intelligentere Systeme schaffen, die sich besser an komplexe Umgebungen anpassen und über eine hohe Autonomie verfügen. CoT hat in der praktischen Anwendung seine einzigartigen Vorteile gezeigt, insbesondere bei der Bearbeitung komplexer Aufgaben, indem es die Aufgaben in eine Reihe von kleinen Schritten zerlegt. Dies verbessert nicht nur die Genauigkeit der Problemlösung, sondern erhöht auch die Erklärbarkeit und Kontrollierbarkeit des Modells. Dieser schrittweise Ansatz kann die falschen Entscheidungen, die aufgrund von zu vielen oder zu komplexen Informationen bei komplexen Aufgaben entstehen, erheblich reduzieren. Gleichzeitig verbessert dieser Ansatz die Nachverfolgbarkeit und Überprüfbarkeit der gesamten Lösung.

Die Kernfunktion von CoT besteht darin, Planung, Handlung und Beobachtung miteinander zu verknüpfen und die Kluft zwischen Inferenz und Handlung zu schließen. Dieses Denkmodell ermöglicht es AI-Agenten, wirksame Gegenmaßnahmen für vorhersehbare Anomalien zu entwickeln und gleichzeitig neue Informationen zu sammeln und die vorher festgelegten Prognosen zu überprüfen, während sie mit der externen Umgebung interagieren, um neue Grundlagen für die Inferenz bereitzustellen. CoT wirkt wie ein leistungsstarker Motor für Präzision und Stabilität, der AI-Agenten hilft, in komplexen Umgebungen effizient zu arbeiten.

Vier, die richtige Pseudonachfrage

Worin sollte Crypto mit welchen Aspekten des AI-Technologiestacks kombiniert werden? In einem Artikel des letzten Jahres habe ich argumentiert, dass die Dezentralisierung von Rechenleistung und Daten ein entscheidender Schritt ist, um kleinen Unternehmen und individuellen Entwicklern zu helfen, Kosten zu sparen. In diesem Jahr haben wir in den von Coinbase zusammengestellten Crypto x AI-Segmenten detailliertere Unterteilungen gesehen:

(1) Berechnungsschicht (bezieht sich auf Netzwerke, die sich darauf konzentrieren, Ressourcen für Grafikverarbeitungseinheiten (GPU) für AI-Entwickler bereitzustellen);

(2) Datenschicht (bezieht sich auf Netzwerke, die den dezentralen Zugriff, die Orchestrierung und die Validierung von AI-Datenpipelines unterstützen);

(3) Middleware-Schicht (bezieht sich auf Plattformen oder Netzwerke, die die Entwicklung, Bereitstellung und das Hosting von AI-Modellen oder Agenten unterstützen);

(4) Anwendungsschicht (bezieht sich auf benutzerorientierte Produkte, die die on-chain AI-Mechanismen nutzen, egal ob B2B oder B2C).

In diesen vier Schichten hat jede Schicht eine grandiose Vision, deren Ziel zusammengefasst darin besteht, gegen die Dominanz der Silicon Valley-Riesen im nächsten Zeitalter des Internets anzutreten. Wie ich letztes Jahr sagte, müssen wir wirklich akzeptieren, dass die Silicon Valley-Riesen die Kontrolle über Rechenleistung und Daten exklusiv haben? Unter ihrer monopolistischen Kontrolle sind die Closed-Source-Großmodelle eine Black Box. Wissenschaft ist heute die Religion, an die die Menschheit am meisten glaubt, und jede Antwort, die das große Modell in der Zukunft gibt, wird von einem großen Teil der Menschen als Wahrheit angesehen, aber wie können wir diese Wahrheit verifizieren? Laut den Vorstellungen der Silicon Valley-Riesen werden die Berechtigungen, die Agenten letztendlich haben, unvorstellbar sein, wie z. B. das Recht, auf dein Wallet zuzugreifen, das Recht, Geräte zu benutzen. Wie kann man sicherstellen, dass Menschen keine bösen Absichten haben?

Dezentralisierung ist die einzige Antwort, aber manchmal müssen wir überlegen, wie viele Käufer für diese grandiosen Visionen es gibt. In der Vergangenheit konnten wir durch Token die Abweichungen, die durch Idealisierung entstanden sind, ausgleichen, ohne einen kommerziellen Kreislauf in Betracht zu ziehen. Die aktuelle Situation ist jedoch sehr ernst. Crypto x AI muss die Realität in die Designs einbeziehen, zum Beispiel, wie man auf der Leistungsebene ein Gleichgewicht zwischen beiden Seiten schafft, wenn die Leistung leidet und instabil ist, um die Wettbewerbsfähigkeit der zentralisierten Cloud zu erreichen. Wie viele echte Nutzer wird es in den Projekten der Datenschicht geben? Wie kann man die Echtheit und Gültigkeit der bereitgestellten Daten überprüfen, und welche Kunden benötigen diese Daten? Die übrigen beiden Schichten sind analog; in dieser Zeit brauchen wir nicht so viele scheinbar richtige Pseudonachfragen.

Fünf, Meme hat SocialFi verlassen.

Wie ich im ersten Absatz gesagt habe, hat Meme bereits auf ultraschnelle Weise eine SocialFi-Form erreicht, die mit Web3 übereinstimmt. Friend.tech ist die Dapp, die den ersten Schuss in dieser Runde sozialer Anwendungen abgegeben hat, aber leider am hastigen Token-Design gescheitert ist. Pump.fun hat die Machbarkeit einer reinen Plattformvalidierung bewiesen, ohne Token und ohne Regeln. Die Nachfrage- und Angebotsseite der Aufmerksamkeit vereint sich, du kannst auf der Plattform Memes posten, Livestreams machen, Tokens ausgeben, kommentieren und handeln. Alles ist frei, Pump.fun erhebt nur eine Servicegebühr. Dies steht im Grunde im Einklang mit dem Aufmerksamkeitswirtschaftsmodell heutiger sozialer Medien wie YouTube und Instagram, nur dass die Kostenstelle unterschiedlich ist. In der Spielweise ist Pump.fun jedoch mehr Web3.

Base's Clanker ist der Meister, dank des von der Ökologie selbst geführten integrierten Ökosystems. Base hat seine eigene soziale Dapp als Unterstützung, um einen vollständigen internen Kreislauf zu bilden. Der Agent Meme ist die Form 2.0 des Meme Coins; Menschen suchen immer nach Neuem, und Pump.fun befindet sich gerade im Mittelpunkt des Geschehens. Trendmäßig ist es nur eine Frage der Zeit, bis silikonbasierte Kreaturen die vulgären Witze der kohlenstoffbasierten Lebewesen ersetzen.

Ich habe Base nun unzählige Male erwähnt, nur dass die Inhalte jedes Mal unterschiedlich sind. Zeitlich gesehen war Base nie der Vorreiter, ist aber immer der Gewinner.

Sechs, was kann ein Agent noch sein?

Aus einer pragmatischen Perspektive wird es in naher Zukunft unmöglich sein, dass Agenten dezentralisiert werden. Betrachtet man den Aufbau von Agenten im traditionellen AI-Bereich, so handelt es sich nicht um ein einfaches Problem des Dezentralisierens und Open-Sourcing des Inferenzprozesses. Es erfordert den Zugriff auf verschiedene APIs, um auf die Inhalte von Web2 zuzugreifen. Die Betriebskosten sind sehr hoch, und das Design von Denkketten sowie die Zusammenarbeit zwischen mehreren Agenten hängen normalerweise immer noch von einem Menschen als Medium ab. Wir werden eine sehr lange Übergangszeit durchlaufen, bis eine geeignete Integrationsform erscheint, vielleicht wie UNI. Aber wie im vorherigen Artikel erwähnt, glaube ich immer noch, dass Agenten einen großen Einfluss auf unsere Branche haben werden, ähnlich wie die Existenz von Cex in unserer Branche, nicht korrekt, aber sehr wichtig.

Letzten Monat veröffentlichten Stanford & Microsoft einen Artikel (Übersicht über AI-Agenten), der umfangreiche Anwendungen von Agenten in der Medizin, intelligenten Maschinen und virtuellen Welten beschreibt. In diesem Artikel sind bereits viele Experimente mit GPT-4V als Agenten in der Entwicklung von Top-3A-Spielen aufgeführt.

Es ist nicht notwendig, die Geschwindigkeit zu erzwingen, mit der es sich mit der Dezentralisierung verbindet. Ich hoffe eher, dass die erste Puzzlestück, das der Agent ausfüllen kann, die Bottom-up-Fähigkeiten und -geschwindigkeit sind. Wir haben so viele narrative Ruinen und leere Metaversen, die es zu füllen gilt. In der richtigen Phase werden wir darüber nachdenken, wie wir es zum nächsten UNI machen können.

Referenzen

Was ist die Fähigkeit der Denkketten, die aus dem großen Modell „emergiert“? Autor: Gehirn Extremkörper

Einen Artikel lesen, um Agenten zu verstehen, die nächste Station des großen Modells. Autor: LinguaMind