Autor: YBB Capital Researcher Zeke

Úvod

V předchozích článcích jsme již několikrát prozkoumali názory na aktuální stav AI Meme a budoucí vývoj AI agentů. Nicméně, rychlost vývoje narativu v oblasti AI agentů a jeho dramatické změny nás stále trochu zaskakují. Od otevření 'terminálu pravdy' a uvedení Agent Summer, bylo za pouhé dva měsíce téměř každý týden nové změny v narativu spojujícím AI a Crypto. Nedávno se pozornost trhu opět zaměřila na projekty typu 'rámec', které jsou řízeny technickým narativem, a v této podkategorii se v posledních několika týdnech objevilo několik černých koní s tržní kapitalizací přes 100 milionů a dokonce i miliardu. Tyto projekty také vyvolaly nový paradigmata pro vydávání aktiv, kdy projekty vydávají tokeny na základě kódových repozitářů na Githubu, a agenti vytvoření na základě rámce mohou také znovu vydávat tokeny. Na základě rámce, agent na vrcholu. I když to vypadá jako platforma pro vydávání aktiv, ve skutečnosti se objevuje nová infrastruktura, která je jedinečná pro éru AI. Jak bychom měli posuzovat tento nový trend? Tento článek začne shrnutím rámce a spojí naše myšlení k interpretaci, co vlastně AI rámce znamenají pro Crypto.

První, co je rámec?

Z definice je AI rámec základním vývojovým nástrojem nebo platformou, která integruje sadu předem vytvořených modulů, knihoven a nástrojů a zjednodušuje proces vytváření složitých AI modelů. Tyto rámce obvykle zahrnují také funkce pro zpracování dat, trénink modelů a provádění predikcí. Stručně řečeno, můžete rámec jednoduše chápat jako operační systém v éře AI, podobně jako operační systémy na desktopu, jako Windows, Linux, nebo mobilních platformách jako iOS a Android. Každý rámec má své vlastní výhody a nevýhody, a vývojáři si mohou svobodně vybrat podle konkrétních potřeb.

I když je termín 'AI rámec' v oblasti Crypto stále novým pojmem, jeho historie sahá až k Theano, které vzniklo v roce 2010, a vývoj AI rámců se blíží k 14 letům. V tradičním AI kruhu, ať už v akademické nebo průmyslové sféře, existují velmi vyspělé rámce k dispozici, jako TensorFlow od Google, Pytorch od Meta, PaddlePaddle od Baidu, MagicAnimate od ByteDance, a každé z těchto rámců má své silné stránky pro různé scénáře.

Rámcové projekty, které se v současnosti objevují v Crypto, jsou vytvořeny na základě velké poptávky po agentech, která vznikla z této vlny AI, a poté se rozšířily do dalších oblastí Crypto, což konečně vedlo k formování různých AI rámců na základě různých segmentů. Rádi bychom rozšířili tuto větu pomocí několika aktuálně hlavních rámců v této oblasti.

1.1 Eliza

Nejprve vezmeme jako příklad Elizu od ai16z, tento rámec je rámcem pro simulaci více agentů, navrženým pro vytváření, nasazení a správu autonomních AI agentů. Je vyvinut na základě TypeScriptu jako programovacího jazyka, jehož výhodou je lepší kompatibilita a snazší integrace API.

Podle oficiální dokumentace se Eliza primárně zaměřuje na scénáře sociálních médií, například podporu integrace na více platformách, tento rámec poskytuje plně funkční integraci Discord a podporuje hlasové kanály, automatizované účty na X/Twitter, integraci Telegramu a přímý přístup k API. Při zpracování mediálního obsahu podporuje čtení a analýzu PDF dokumentů, extrakci a shrnutí odkazovaného obsahu, přepisování audia, zpracování video obsahu, analýzu a popis obrazů, shrnutí dialogu.

Eliza aktuálně podporuje čtyři hlavní případy použití:

  1. Aplikace typu AI asistenti: zákaznická podpora, správci komunit, osobní asistenti;

  2. Role na sociálních médiích: automatizovaní tvůrci obsahu, interaktivní roboti, zástupci značek;

  3. Odborníci na znalosti: výzkumní asistenti, analytici obsahu, zpracovatelé dokumentů;

  4. Interaktivní role: role hraní, vzdělávací poradci, zábavní roboti.

Modely podporované Eliza v současnosti:

  1. Místní inference open-source modelů: například Llama3, Qwen1.5, BERT;

  2. Použití API OpenAI pro cloudovou inference;

  3. Výchozí konfigurace je Nous Hermes Llama 3.1B;

  4. Integrace s Claudem pro složité dotazy.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) je více-modalní AI rámec automatického generování a správy, který byl uveden Virtual, jehož cílem je design inteligentních NPC ve hrách. Tento rámec má také zvláštní výhodu v tom, že uživatelé i bez znalostí kódování mohou participovat, podle zkušebního rozhraní stačí pouze upravit parametry pro účast na designu agenta.

Co se týče architektury projektů, jádrový design G.A.M.E spočívá v modulárním designu, který zahrnuje spolupráci několika subsystémů, detailní architektura je znázorněna na následujícím obrázku.

  1. Agent Prompting Interface: rozhraní pro interakci vývojářů s AI rámcem. Pomocí tohoto rozhraní mohou vývojáři inicializovat relaci a specifikovat parametry, jako je ID relace, ID agenta, ID uživatele;

  2. Percepční subsystém: Percepční subsystém přijímá vstupní informace a syntetizuje je před odesláním do strategického plánovacího enginu. Zpracovává také odpovědi z modulu zpracování dialogu;

  3. Strategický plánovací engine: Strategický plánovací engine je jádrem celého rámce a dělí se na vysokou úroveň plánovačů (High Level Planner) a nízkou úroveň strategií (Low Level Policy). Vysoká úroveň plánovačů je zodpovědná za stanovení dlouhodobých cílů a plánů, zatímco nízké strategie přetvářejí tyto plány na konkrétní akční kroky;

  4. Světový kontext: Světový kontext obsahuje informace o prostředí, stav světa a stav hry, tyto informace pomáhají agentu porozumět aktuální situaci;

  5. Modul zpracování dialogu: Modul zpracování dialogu zajišťuje zpracování zpráv a odpovědí, může generovat dialog nebo reakce jako výstup;

  6. Operátor peněženky na řetězu: Operátor peněženky na řetězu může zahrnovat aplikace blockchainové technologie, konkrétní funkce nejsou jasné;

  7. Modul učení: Učební modul se učí z reakcí a aktualizuje znalostní základnu agenta;

  8. Pracovní paměť: Pracovní paměť uchovává nedávné akce, výsledky a aktuální plány agenta;

  9. Procesor dlouhodobé paměti: Procesor dlouhodobé paměti je zodpovědný za extrakci důležitých informací o agentovi a jeho pracovní paměti a řadí je na základě faktorů, jako jsou důležitost, čerstvost a relevance;

  10. Repozitář agentů: Repozitář agentů uchovává cíle, reflexe, zkušenosti a osobnost agentů;

  11. Plánovač akcí: Plánovač akcí generuje konkrétní akční plány na základě nízkých strategií;

  12. Executor plánu: Executor plánu je zodpovědný za provádění akčních plánů generovaných plánovačem akcí.

Pracovní postup: vývojáři spouštějí agenta prostřednictvím Agent Prompting Interface, percepční subsystém přijímá vstup a předává ho strategickému plánovacímu enginu. Strategický plánovací engine využívá systém paměti, světový kontext a informace z repozitáře agentů k plánování a provádění akčních plánů. Učební modul neustále monitoruje výsledky činnosti agenta a na základě výsledků upravuje chování agenta.

Aplikační scénář: Z pohledu celkové technické architektury se tento rámec zaměřuje na rozhodování, zpětnou vazbu, vnímání a osobnost agenta ve virtuálním prostředí. Kromě her je tento rámec také vhodný pro Metaverse. V seznamu pod Virtual již existuje mnoho projektů, které tento rámec využívají k výstavbě.

1.3 Rig

Rig je nástroj napsaný v jazyce Rust, navržený tak, aby zjednodušil vývoj aplikací pro velké jazykové modely (LLM). Poskytuje jednotné uživatelské rozhraní, které umožňuje vývojářům snadno interagovat s několika poskytovateli LLM (například OpenAI a Anthropic) a různými databázemi vektorů (jako MongoDB a Neo4j).

Hlavní charakteristiky:

  • Jednotné rozhraní: bez ohledu na to, který poskytovatel LLM nebo jaký typ vektorového úložiště, Rig poskytuje konzistentní přístup, což výrazně snižuje složitost integrační práce;

  • Modulární architektura: rámec využívá modulární design, který zahrnuje klíčové části jako 'abstrakční vrstvu poskytovatele', 'rozhraní pro ukládání vektorů' a 'inteligentní agentní systém', což zajišťuje flexibilitu a škálovatelnost systému;

  • Typová bezpečnost: Využití vlastností Rustu k dosažení typově bezpečných vložených operací, což zajišťuje kvalitu kódu a bezpečnost během běhu;

  • Efektivní výkon: Podpora asynchronního programování, optimalizace schopnosti zpracování konkurence; vestavěné funkce pro logování a monitoring pomáhají při údržbě a odstraňování chyb.

Pracovní postup: Když uživatel požádá o vstup do systému Rig, nejprve projde 'abstrakční vrstvu poskytovatele', která standardizuje rozdíly mezi různými poskytovateli a zajišťuje konzistenci při zpracování chyb. Následně v jádrové části mohou inteligentní agenti volat různé nástroje nebo dotazovat vektorové úložiště o potřebné informace. Nakonec, pomocí pokročilých mechanismů, jako je vyhledáváním obohacené generování (RAG), systém dokáže kombinovat vyhledávání dokumentů a porozumění kontextu k vytvoření přesných a smysluplných odpovědí, které se vrátí uživateli.

Aplikační scénář: Rig je vhodný nejen pro vybudování systémů pro rychlé a přesné odpovědi na dotazy, ale může být také použit k vytvoření efektivních nástrojů pro vyhledávání dokumentů, chatbotů nebo virtuálních asistentů s kontextovým vnímáním, a dokonce podporuje tvorbu obsahu, automaticky generující text nebo jiné formy obsahu na základě existujících datových vzorů.

1.4 ZerePy

ZerePy je open-source rámec založený na Pythonu, který má za cíl zjednodušit nasazení a správu AI agentů na platformě X (dříve Twitter). Vznikl z projektu Zerebro, který zdědil své hlavní funkce, ale byl navržen modulárně a lépe rozšiřitelně. Jeho cílem je umožnit vývojářům snadno vytvářet personalizované AI agenty a realizovat různé automatizované úkoly a tvorbu obsahu na X.

ZerePy poskytuje rozhraní příkazového řádku (CLI), které uživatelům usnadňuje správu a kontrolu jejich nasazených AI agentů '1'. Jeho hlavní architektura je založena na modulárním designu, který umožňuje vývojářům flexibilně integrovat různé funkční moduly, například:

  • Integrace LLM: ZerePy podporuje velké jazykové modely (LLM) od OpenAI a Anthropic, vývojáři si mohou vybrat model, který nejlépe vyhovuje jejich aplikačním scénářům. To umožňuje agentům generovat vysoce kvalitní textový obsah;

  • Integrace platformy X: rámec přímo integruje API platformy X, což umožňuje agentům provádět operace jako zveřejňování, odpovídání, lajkování, sdílení;

  • Modulární připojovací systém: tento systém umožňuje vývojářům snadno přidávat podporu pro jiné sociální platformy nebo služby a rozšiřovat funkce rámce;

  • Paměťový systém (plán do budoucna): ačkoli současná verze možná ještě není plně implementována, cílem designu ZerePy je zahrnout paměťový systém, který umožní agentům pamatovat si předchozí interakce a kontextové informace, a tím generovat koherentnější a personalizovaný obsah.

Zatímco projekty ZerePy a a16z Eliza se zaměřují na budování a správu AI agentů, jejich struktura a cíle se mírně liší. Eliza se více zaměřuje na simulaci více agentů a širší výzkum AI, zatímco ZerePy se soustředí na zjednodušení procesu nasazení AI agentů na konkrétní sociální platformě (X), více orientované na zjednodušení v praktických aplikacích.

Druhé, kopie BTC ekosystému

Pokud jde o cestu vývoje, AI agenti mají mnoho podobností s BTC ekosystémem na konci roku 2023 a začátku roku 2024. Vývojová cesta BTC ekosystému může být stručně shrnuta jako: BRC20 - Atomical/Rune a další víceprotokolová konkurence - BTC L2 - BTCFi se zaměřením na Babylon. AI agenti se však vyvíjejí rychleji na základě vyspělé tradiční AI technologické vrstvy, ale jejich celková vývojová cesta má skutečně mnoho podobností s BTC ekosystémem, shrnuji ji takto: konkurence rámců agentů typu GOAT/ACT - sociální AI agenti/analytické AI agenti. Z trendového hlediska se pravděpodobně infrastrukturní projekty zaměřující se na decentralizaci a bezpečnost agentů ujmou této vlny rámců a stanou se hlavním motivem příští fáze.

Bude tato oblast směřovat k homogenizaci a spekulaci jako BTC ekosystém? Myslím, že ne, především proto, že narativ AI agentů není zaměřen na reprodukci historie inteligentních kontraktů, a jednak současné projekty AI rámců, bez ohledu na to, zda mají skutečné schopnosti nebo stagnují v fázi PPT nebo ctrl c + ctrl v, alespoň poskytují nový přístup k vývoji infrastruktury. Mnoho článků přirovnává AI rámce k platformám pro vydávání aktiv, s agenty jako aktivy, ve skutečnosti, ve srovnání s Memecoin Launchpad a in-script protokolem, se domnívám, že AI rámce více připomínají budoucí veřejné řetězce, zatímco agenti se podobají budoucím Dappům.

V současném Crypto máme tisíce veřejných řetězců a tisíce Dappů. Mezi univerzálními řetězci máme BTC, Ethereum a různé heterogenní řetězce, zatímco formy aplikačních řetězců jsou různorodější, jako herní řetězce, úložné řetězce, Dex řetězce. Veřejné řetězce jsou ve skutečnosti velmi podobné AI rámcům, a Dappy lze dobře přiřadit k agentům.

V éře AI je velmi pravděpodobné, že Crypto se ubírá tímto směrem, budoucí debaty se také přesunou od diskusí o EVM a heterogenních řetězcích k soutěži rámců. Nyní je otázkou spíše, jak decentralizovat nebo jinak 'řetězit'? Domnívám se, že budoucí projekty AI infrastruktury se na tomto základě rozvinou, a dalším bodem je, jaký smysl má dělat tuto věc na blockchainu?

Třetí, jaký je smysl na řetězu?

Blockchain, bez ohledu na to, s čím se kombinuje, se vždy musí postavit před jednu otázku: má to smysl? Ve svém loňském článku jsem kritizoval převrácenost GameFi, pokrok v infrastuktuře je předčasný, v několika předchozích článcích o AI jsem také vyjádřil skepsi ohledně kombinace AI a Crypto v aktuálních praktických oblastech. Nakonec, tlak na narativ pro tradiční projekty se stává stále slabším, a málo tradičních projektů, které měly dobrý výkon cen v minulém roce, musí mít schopnost odpovídat nebo překračovat cenu tokenů. Jaký užitek může AI přinést Crypto? Dříve jsem uvažoval o agentu, který by realizoval záměry, Metaverse, agenti jako zaměstnanci atd., což jsou relativně běžné, ale poptávané myšlenky. Ale tyto potřeby nemusí být zcela na řetězu, a z obchodní logiky nemohou být uzavřeny. V předchozím čísle zmíněný agentní prohlížeč realizující záměr však může vyvolat potřebu označování dat, výpočetní síly atd., ale spojení obou stále není dostatečně úzké a z hlediska výpočetní síly stále dominuje centralizovaný výkon.

Přehodnocení úspěšné cesty DeFi, DeFi dokázalo získat podíl z tradičního financování díky vyšší dostupnosti, lepší efektivitě a nižším nákladům, které nevyžadují důvěru centralizované bezpečnosti. Pokud bychom to považovali za základ, myslím, že existuje několik důvodů, proč by mohly existovat důvody pro podporu řetězení agentů.

1. Může agentní řetězení realizovat nižší provozní náklady a tím dosáhnout vyšší dostupnosti a volby? Nakonec umožní AI 'nájemní právo', které patří výhradně velkým firmám Web2, aby se běžní uživatelé mohli zapojit;

2. Bezpečnost, podle nejjednodušší definice agenta, by AI, kterou lze nazvat agentem, měla být schopna interagovat s virtuálním nebo reálným světem. Pokud agent může zasahovat do reality nebo do mého virtuálního peněženky, pak je bezpečnostní řešení založené na blockchainu také nezbytností.

3. Může agent realizovat sadu finančních her výhradně pro blockchain? Například LP v AMM, kde by se i běžní lidé mohli podílet na automatickém vytváření trhu, nebo agent potřebuje výpočetní výkon, označování dat atd., zatímco uživatelé by investovali do protokolu v podobě U, pokud by měli dobré vyhlídky. Nebo by mohli agenti založení na různých aplikačních scénářích vytvářet nové finanční hry;

4. DeFi momentálně nemá dokonalou interoperabilitu, a pokud by agenti spojené s blockchainem mohli dosáhnout transparentního a sledovatelného odvozování, mohli by být atraktivnější než agenti prohlížeče poskytované tradičními internetovými giganty zmíněné v předchozím článku.

Čtvrté, kreativita?

Rámce projekty v budoucnu také nabídnou příležitosti podobné GPT Store. I když je aktuální vydání agenta prostřednictvím rámce stále složité pro běžné uživatele, věřím, že zjednodušení procesu výstavby agentů a nabídnutí některých složitých funkčních kombinací rámce budou mít v budoucnu výhodu, což povede k zajímavější kreativní ekonomice Web3 než je GPT Store.

Současný GPT Store se stále zaměřuje na tradici a většina populárních aplikací je vytvořena tradičními společnostmi Web2, přičemž příjmy jsou zcela v rukou tvůrců. Podle oficiálního vysvětlení OpenAI je tato strategie určena pouze pro některé vynikající vývojáře v USA s omezenou částkou podpory.

Web3 stále vyžaduje mnoho aspektů, které je třeba vyplnit, a v ekonomickém systému může zajišťovat spravedlivější politiku pro Web2 giganty. Kromě toho můžeme samozřejmě zavést komunitní ekonomiku, aby agenti byli ještě dokonalejší. Kreativní ekonomika agentů bude příležitostí pro běžné lidi, a budoucí AI Meme bude mnohem inteligentnější a zábavnější než agenti vydaní na platformě GOAT, Clanker.

Reference článků:

1. Historie vývoje AI rámců a prozkoumání trendů

2. Bybit: AI Rig Complex (ARC): AI agentní rámec

3. Hluboké hodnotové memetika: horizontální srovnání čtyř hlavních rámců Crypto × AI: stav přijetí, výhody a nevýhody, růstový potenciál

4. Oficiální dokumentace Eliza

5. Oficiální dokumentace Virtual