Autor: YBB Capital Researcher Zeke

Úvod

V předchozích článcích jsme již několikrát probírali názory na současný stav AI Meme a budoucí vývoj AI agentů. Nicméně rychlost narativního vývoje a dramatické změny v oblasti AI agentů nás stále poněkud překvapují. Od otevření „terminálu pravdy“ došlo během pouhých dvou měsíců k téměř týdenním změnám v narativu kombinace AI a Crypto. Nedávno se pozornost trhu opět zaměřila na „rámcové“ projekty řízené technologií, přičemž této úzké oblasti se podařilo během několika posledních týdnů vyprodukovat několik černých koní s tržní kapitalizací přes miliardu, ba dokonce i přes deset miliard. Tyto projekty také generovaly nový paradigmat vydávání aktiv, což znamená, že projekty vydávají tokeny na základě kódových repozitářů na Githubu a agenti postavení na základě rámce mohou také znovu vydávat tokeny. Rámec jako základ, agent jako vrchol. Na první pohled se to podobá platformě pro vydávání aktiv, ale ve skutečnosti se objevuje jedinečný model infrastruktury charakteristický pro éru AI. Jak bychom měli zhodnotit tento nový trend? Tento článek začíná shrnutím rámce a poté se pokusí objasnit, co AI rámec pro Crypto skutečně znamená.

1. Co je rámec?

Z definice je AI rámec základním vývojovým nástrojem nebo platformou, která integruje sadu předem vytvořených modulů, knihoven a nástrojů, které zjednodušují proces budování složitých AI modelů. Tyto rámce obvykle také obsahují funkce pro zpracování dat, trénink modelů a provádění predikcí. Jinými slovy, můžete rámec jednoduše chápat jako operační systém v éře AI, podobně jako desktopové operační systémy jako Windows, Linux, nebo mobilní systémy jako iOS a Android. Každý rámec má své vlastní výhody a nevýhody, které si mohou vývojáři svobodně vybírat podle svých konkrétních potřeb.

Ačkoli termín "AI rámec" je v oblasti Crypto stále novým pojmem, jeho historie se datuje již téměř 14 let od vzniku Theano v roce 2010. V tradiční AI komunitě, ať už v akademické sféře nebo průmyslu, jsou k dispozici velmi vyspělé rámce, jako je TensorFlow od Googlu, Pytorch od Meta, PaddlePaddle od Baidu, a MagicAnimate od ByteDance, přičemž každý z těchto rámců má své výhody v různých scénářích.

Současné rámcové projekty v Crypto vznikly na základě této vlny AI nadšení a poptávky po agentech, a poté se rozšířily do dalších oblastí Crypto, čímž se vytvořily AI rámce v různých specializovaných oblastech. Uvedeme několik hlavních rámců v současném prostoru jako příklad.

1.1 Eliza

解构AI框架:从智能代理到去中心化的探索

Nejprve vezměme jako příklad Elizu od ai16z, tento rámec je simulací více agentů, určený k vytváření, nasazení a správě autonomních AI agentů. Je vyvinut v TypeScriptu jako programovacím jazyce, jeho výhodou je lepší kompatibilita a snazší integrace s API.

Podle oficiální dokumentace je cílovou scénou Elizy převážně sociální média, například podpora integrace na více platformách. Tento rámec poskytuje plně vybavenou integraci Discord a podporuje automatizované účty na platformách X/Twitter, integraci Telegramu a přímý přístup k API. Co se týče zpracování mediálního obsahu, podporuje čtení a analýzu PDF dokumentů, extrakci a shrnutí obsahu z odkazů, přepisování zvuku, zpracování video obsahu, analýzu a popis obrázků, shrnutí dialogu.

Použití Elizy se aktuálně dělí do čtyř kategorií:

  1. Aplikace typu AI asistenti: agenti zákaznické podpory, správci komunit, osobní asistenti;

  2. Role na sociálních médiích: automatizovaní tvůrci obsahu, interaktivní roboti, zástupci značek;

  3. Odborníci na znalosti: výzkumní asistenti, analytici obsahu, zpracovatelé dokumentů;

  4. Interaktivní role: role v hraní rolí, vzdělávací poradci, zábavní roboti.

Modely aktuálně podporované Elizou:

  1. Lokální inference open-source modelů: například Llama3, Qwen1.5, BERT;

  2. Použití API OpenAI pro cloudovou inference;

  3. Výchozí konfigurace je Nous Hermes Llama 3.1B;

  4. Integrace s Claude pro složité dotazy.

1.2 G.A.M.E

G.A.M.E (Generative Autonomous Multimodal Entities Framework) je automatizovaný generativní a spravovaný multimodální AI rámec, který uvedla společnost Virtual. Jeho cílovou scénou je design inteligentních NPC ve hrách. Tento rámec má také zvláštní charakter v tom, že uživatelé bez znalosti kódování či s nízkou znalostí kódování mohou také používat, podle jeho zkušebního rozhraní stačí, aby uživatelé pouze změnili parametry a mohli se zapojit do designu agentů.

解构AI框架:从智能代理到去中心化的探索

V projektové architektuře je jádrem designu G.A.M.E modulární design, který umožňuje spolupráci několika subsystémů. Podrobná architektura je znázorněna na následujícím obrázku.

解构AI框架:从智能代理到去中心化的探索

  1. Rozhraní pro vyvolávání agentů: rozhraní pro interakci vývojářů s AI rámcem. Pomocí tohoto rozhraní mohou vývojáři inicializovat relaci a specifikovat parametry jako ID relace, ID agenta, ID uživatele;

  2. Percepční subsystém: Percepční subsystém odpovídá za příjem vstupních informací a jejich syntézu, kterou následně posílá strategickému plánovacímu enginu. Zpracovává také odpovědi dialogového zpracovatelského modulu;

  3. Strategický plánovací engine: Strategický plánovací engine je jádrem celého rámce, dělí se na vysoce úrovňový plánovač (High Level Planner) a nízkoúrovňovou strategii (Low Level Policy). Vysoce úrovňový plánovač je zodpovědný za stanovení dlouhodobých cílů a plánů, zatímco nízkoúrovňová strategie tyto plány převádí do konkrétních kroků.

  4. Světový kontext: Světový kontext obsahuje informace o prostředí, stavu světa a stavu hry, které agentovi pomáhají porozumět aktuální situaci;

  5. Modul pro zpracování dialogu: Modul pro zpracování dialogu odpovídá za zpracování zpráv a odpovědí, může generovat dialog nebo reakce jako výstup;

  6. Operátor peněženky na řetězu: Operátor peněženky na řetězu může zahrnovat scénáře aplikace blockchainové technologie, konkrétní funkce nejsou jasné;

  7. Učící modul: Učící modul se učí z zpětné vazby a aktualizuje znalostní základnu agenta;

  8. Pracovní paměť: Pracovní paměť ukládá nedávné akce, výsledky a aktuální plány agenta, tedy krátkodobé informace;

  9. Procesor dlouhodobé paměti: Procesor dlouhodobé paměti odpovídá za extrakci důležitých informací o agentovi a jeho pracovní paměti a jejich řazení podle důležitosti, nedávnosti a relevance;

  10. Repozitář agentů: Repozitář agentů uchovává cíle, reflexe, zkušenosti a osobnost agenta;

  11. Plánovač akcí: Plánovač akcí generuje konkrétní akční plány na základě nízkoúrovňové strategie;

  12. Executor plánů: Executor plánů odpovídá za provádění akčních plánů generovaných plánovačem akcí.

Pracovní tok: Vývojáři spouští agenta prostřednictvím rozhraní pro vyvolávání agentů, percepční subsystém přijímá vstupy a předává je strategickému plánovacímu enginu. Ten využívá paměťový systém, světový kontext a informace v knihovně agentů k vytvoření a provedení akčního plánu. Učící modul neustále sleduje výsledky akcí agenta a upravuje chování agenta na základě těchto výsledků.

Aplikační scénáře: Z celkového technického pohledu se tento rámec zaměřuje na rozhodování, zpětnou vazbu, vnímání a osobnost agentů v virtuálním prostředí. Kromě her je také vhodný pro Metaverse. V seznamu pod Virtual můžete vidět, že již existuje velké množství projektů, které tento rámec využívají k budování.

1.3 Rig

解构AI框架:从智能代理到去中心化的探索

Rig je open-source nástroj napsaný v jazyce Rust, navržený k zjednodušení vývoje aplikací velkých jazykových modelů (LLM). Nabízí jednotné uživatelské rozhraní, které umožňuje vývojářům snadno interagovat s mnoha poskytovateli LLM (např. OpenAI a Anthropic) a různými vektorovými databázemi (např. MongoDB a Neo4j).

Hlavní vlastnosti:

  • Jednotné rozhraní: Bez ohledu na to, který poskytovatel LLM nebo jaký typ vektorového úložiště, Rig poskytuje konzistentní přístup, což výrazně snižuje složitost integrační práce;

  • Modulární architektura: V rámci je použita modulární struktura, která zahrnuje klíčové části, jako jsou „abstrakční vrstva poskytovatele“, „rozhraní vektorového úložiště“ a „inteligentní agentní systém“, což zajišťuje flexibilitu a rozšiřitelnost systému;

  • Typová bezpečnost: Využitím vlastností Rustu byla zajištěna typová bezpečnost pro vkládací operace, což zaručuje kvalitu kódu a bezpečnost během běhu;

  • Vysoký výkon: Podporuje asynchronní programovací model, optimalizuje schopnost zpracovávat více úloh; vestavěné funkce pro zaznamenávání a sledování pomáhají při údržbě a odstraňování chyb.

Pracovní tok: Když uživatel požádá o přístup do systému Rig, nejprve projde „abstrakčním vrstvou poskytovatele“, která zajišťuje standardizaci rozdílů mezi různými poskytovateli a zajišťuje konzistenci zpracování chyb. Následně v jádrové vrstvě může inteligentní agent volat různé nástroje nebo se dotazovat vektorových úložišť, aby získal potřebné informace. Nakonec, prostřednictvím pokročilých mechanismů, jako je vylepšené generování na základě vyhledávání (RAG), systém dokáže kombinovat vyhledávání dokumentů s porozuměním kontextu a generovat přesné a smysluplné odpovědi, které se vrátí uživateli.

Aplikační scénáře: Rig je vhodný nejen pro vybudování systémů odpovídajících na otázky rychle a přesně, ale také pro vytváření efektivních nástrojů pro vyhledávání dokumentů, chatbotů s kontextovým vnímáním nebo virtuálních asistentů, a dokonce podporuje tvorbu obsahu, automaticky generující text nebo jiné formy obsahu na základě existujících vzorů dat.

1.4 ZerePy

解构AI框架:从智能代理到去中心化的探索

ZerePy je open-source rámec založený na Pythonu, který má za cíl zjednodušit proces nasazení a správy AI agentů na platformě X (dříve Twitter). Vznikl z projektu Zerebro, dědí jeho klíčové funkce, ale je navržen modulárně a snadno rozšiřitelně. Jeho cílem je umožnit vývojářům snadno vytvářet personalizované AI agenty a provádět různé automatizované úkoly a tvorbu obsahu na X.

ZerePy poskytuje rozhraní příkazového řádku (CLI), které usnadňuje uživatelům správu a ovládání nasazeného AI agenta. Jeho jádrová architektura je založena na modulárním designu, který umožňuje vývojářům flexibilně integrovat různé funkční moduly, například:

  • Integrace LLM: ZerePy podporuje velké jazykové modely (LLM) OpenAI a Anthropic, vývojáři si mohou vybrat model, který nejlépe vyhovuje jejich aplikačnímu scénáři. To umožňuje agentovi generovat vysoce kvalitní textový obsah;

  • Integrace platformy X: Rámec přímo integruje API platformy X, což agentovi umožňuje publikovat příspěvky, odpovídat, dávat lajky a sdílet;

  • Modulární připojovací systém: Tento systém umožňuje vývojářům snadno přidávat podporu pro jiné sociální platformy nebo služby, čímž rozšiřuje funkce rámce;

  • Paměťový systém (budoucí plán): I když současná verze možná ještě nebyla plně implementována, cílem designu ZerePy je zahrnout paměťový systém, aby agent mohl pamatovat dřívější interakce a kontextové informace a generovat tak koherentnější a personalizovaný obsah.

I když se projekty ZerePy a Eliza od a16z oba snaží budovat a řídit AI agenty, jejich architektura a cíle jsou poněkud odlišné. Eliza se více zaměřuje na simulaci více inteligentních agentů a širší výzkum AI, zatímco ZerePy se soustředí na zjednodušení procesu nasazení AI agentů na specifických sociálních platformách (X), více se orientuje na zjednodušení v praktických aplikacích.

2. Kopie BTC ekosystému

Ve skutečnosti z hlediska vývojové cesty má AI Agent mnoho podobností s BTC ekosystémem na konci roku 2023 a na začátku roku 2024. Vývojová cesta BTC ekosystému se dá jednoduše shrnout jako: BRC20-Atomical/Rune a další víceprotokolová konkurence-BTC L2-s BTCFi zaměřeným na Babylon. AI Agent se naopak vyvíjí na základě vyspělé tradiční AI technologické sady, ale jeho celková vývojová cesta má skutečně mnoho podobností s BTC ekosystémem. Jednoduše ji shrnuji jako: GOAT/ACT-Sociální typ agentů/analytické AI agentní rámce. Z trendového hlediska se pravděpodobně infrastruktura zaměřená na decentralizaci agentů a bezpečnost stane hlavním tónem další etapy.

Zda se tato oblast stane homogenní a spekulativní jako BTC ekosystém, si nemyslím, protože narativ AI agentů není zaměřen na replikaci historie řetězů chytrých smluv, a také současné AI rámce, ať už mají skutečnou sílu nebo stagnují v prezentaci, alespoň nabízejí nový směr rozvoje infrastruktury. Mnoho článků přirovnává AI rámce k platformám pro vydávání aktiv, agenty k aktivům; ve srovnání s Memecoin Launchpadem a inkrustovanými protokoly si osobně myslím, že AI rámce se více podobají budoucím veřejným řetězcům, agenti se podobají budoucím Dappům.

V současné době máme v Crypto tisíce veřejných řetězců a desetitisíce Dappů. Mezi univerzálními řetězci máme BTC, Ethereum a různé heterogenní řetězce, zatímco formy aplikačních řetězců jsou rozmanitější, jako herní řetězec, úložný řetězec, Dex řetězec. Veřejné řetězce odpovídají AI rámcům, a Dappy mohou dobře odpovídat agentům.

V éře AI se Crypto pravděpodobně posune tímto směrem, budoucí diskuse se také změní z debat o EVM a heterogenních řetězcích na debaty o rámcích. Nyní je otázka spíše, jak decentralizovat nebo jinak „reťazit“? Myslím, že budoucí projekty AI infrastruktury na tomto základě budou pokračovat, a dalším bodem je, jaký smysl má dělat tuto věc na blockchainu?

3. Jaký je význam řetězu?

Blockchain, bez ohledu na to, s čím se spojí, se musí nakonec postavit čelem k jednomu problému: má to smysl? V loňském článku jsem kritizoval zvrácený smysl GameFi, přechodové vývoje infra, v několika předchozích článcích o AI jsem také vyjádřil, že nevěřím v kombinaci AI x Crypto v praktických oblastech v současné fázi. Koneckonců, hnací síla narativu pro tradiční projekty se stále více oslabuje a několik tradičních projektů s dobrým výkonem v ceně v loňském roce muselo mít sílu odpovídající nebo převyšující cenu. Co může AI nabídnout Crypto? Dříve jsem přemýšlel o agentovi provádějícím operace, Metaverse, agentovi jako zaměstnanci a dalších relativně běžných, ale poptávaných představách. Ale tyto potřeby nemají úplnou nutnost být na řetězu, z obchodního hlediska nemohou vytvořit uzavřený cyklus. V předchozím čísle zmíněný agentní prohlížeč realizující záměry může generovat poptávku po označování dat, výpočetní síle atd., ale spojení mezi nimi stále není dostatečně pevné a co se týče výpočetní síly, stále převládá centralizovaná výpočetní síla.

解构AI框架:从智能代理到去中心化的探索

Znovu promyslet úspěch DeFi, důvod, proč se DeFi může podílet na tradičním financování, je vyšší dostupnost, lepší efektivita a nižší náklady, bez potřeby důvěry v centralizované bezpečnostní systémy. Pokud o tom přemýšlím tímto způsobem, myslím, že existuje i několik důvodů, proč by mohly podporovat řetězení agentů.

1. Může řetězení agentů realizovat nižší náklady na používání a dosáhnout tím vyšší dostupnosti a variability? Nakonec to umožní, aby AI 'pronájem práv', které patří velkým společnosti Web2, umožnily účast běžných uživatelů;

2. Bezpečnost. Podle nejjednodušší definice agenta by AI, kterou lze nazvat agentem, měla být schopna interagovat s virtuálním nebo reálným světem. Pokud může agent zasahovat do reality nebo do mého virtuálního peněženky, pak je bezpečnostní řešení založené na blockchainu skutečně nezbytností.

3. Může agent realizovat jedinečný způsob financování na blockchainu? Například LP v AMM, což by umožnilo běžným lidem účastnit se automatického market makingu, nebo agent potřebující výpočetní výkon, označování dat atd., a uživatelé by investovali do protokolu ve formě USDT, pokud by vyjádřili důvěru. Nebo mohou agenti na základě různých aplikačních scénářů vytvářet nové finanční modely.

4. DeFi v současnosti nemá dokonalou interoperabilitu, kombinace blockchainového agenta, pokud by mohla realizovat transparentní a sledovatelnou inferenci, by mohla být atraktivnější než agentní prohlížeč tradičních internetových gigantů zmíněný v předchozím článku.

4. Kreativita?

Projekty rámce v budoucnu také nabídnou příležitosti pro podnikání podobné GPT Store. Ačkoli publikování agenta prostřednictvím rámce je pro běžné uživatele stále velmi složité, věřím, že zjednodušení procesu vytváření agentů a nabídnutí některých složitých kombinací funkcí bude v budoucnu mít výhodu, což povede k zajímavější ekonomice Web3 než GPT Store.

Současný GPT Store je stále nakloněn tradičním oblastem praktičnosti a většina populárních aplikací je vytvořena tradičními společnostmi Web2, přičemž příjmy jsou také výhradně v rukou tvůrců. Podle oficiálního vysvětlení OpenAI je tato strategie určena pouze pro část vynikajících vývojářů v USA a poskytuje určitou úroveň dotací.

Z pohledu poptávky má Web3 stále mnoho aspektů, které je třeba vyplnit, a v ekonomickém systému může také učinit nespravedlivé politiky Web2 spravedlivějšími. Kromě toho můžeme samozřejmě zavést komunitní ekonomiku, aby byl agent dokonalejší. Kreativní ekonomika agentů bude příležitostí, které se mohou zúčastnit i běžní lidé, a budoucí AI Meme bude mnohem inteligentnější a zajímavější než agenti vydávaní na GOAT a Clanker.

Referenční články:

1. Historie a trendy vývoje AI rámců

2. Bybit: AI Rig Complex (ARC): rámec AI agentů

3. Deep Value Memetics: Horizontální srovnání čtyř hlavních Crypto×AI rámců: použité situace, výhody a nevýhody, potenciál růstu.

4. Oficiální dokumentace Eliza

5. Oficiální dokumentace Virtual