Dekonstrukce AI frameworku: Od inteligentních agentů k decentralizovanému průzkumu

Zjednodušení procesu konstrukce agentů a poskytování některých složitých kombinací funkcí v budoucnu pravděpodobně přinese výhodu, což povede k zajímavější kreativní ekonomice Web3 než GPT Store.
Autor: Výzkumník YBB Capital Zeke
Úvod
V předchozích článcích jsme již několikrát prozkoumali názory na současnost AI Meme a budoucí vývoj AI agentů. Avšak rychlost a dramatika narativního vývoje v oblasti AI agentů je skutečně ohromující. Od doby, co „terminál pravdy“ zahájil Agent Summer, došlo během pouhých dvou měsíců k téměř týdenním změnám v narativu kombinace AI a Crypto. V poslední době se pozornost trhu opět zaměřila na projekty typu „framework“, které dominují technologickému narativu; tato specializovaná oblast již za posledních pár týdnů vyprodukovala několik černých koní s tržní hodnotou přes miliardu dolarů. Tyto projekty také zrodily nový paradigm pro vydávání aktiv, kdy projekty vydávají tokeny na základě kódových repozitářů na Githubu a agenti postavení na těchto frameworkách také mohou znovu vydávat tokeny. Na základě frameworku, s agenty nahoře. Vypadá to jako platforma pro vydávání aktiv, ale ve skutečnosti se objevuje nová infrastrukturní model specifická pro éru AI. Jak bychom měli nahlížet na tento nový trend? Tento článek se pokusí interpretovat, co frameworky znamenají pro Crypto, počínaje úvodem do frameworků a kombinací vlastních myšlenek.
1. Co je to framework?
Z definice je AI framework základním vývojovým nástrojem nebo platformou, která integruje sadu předem vybudovaných modulů, knihoven a nástrojů, což zjednodušuje konstrukci složitých AI modelů. Tyto frameworky obvykle zahrnují funkce pro zpracování dat, trénink modelů a provádění předpovědí. Jednoduše řečeno, frameworky lze chápat jako operační systémy v éře AI, podobně jako Windows a Linux v desktopových operačních systémech, nebo iOS a Android na mobilních zařízeních. Každý framework má své vlastní výhody a nevýhody, které si mohou vývojáři svobodně vybírat podle konkrétních potřeb.
I když je termín „AI framework“ v oblasti Crypto stále novým konceptem, z jeho původu vyplývá, že vývoj AI frameworků od vzniku Theano v roce 2010 se blíží 14 let. V tradičním AI kruhu, ať už v akademickém nebo průmyslovém prostředí, již existují velmi vyspělé frameworky, které si můžete vybrat, jako je TensorFlow od Google, Pytorch od Meta, Paddle od Baidu a MagicAnimate od ByteDance, přičemž tyto frameworky mají své výhody pro různé scénáře.
V současné době vznikající projekty frameworků v Crypto jsou výsledkem rostoucí poptávky po agentech vyvolané touto vlnou AI, a poté se rozšiřují do dalších oblastí Crypto, což nakonec vytváří AI frameworky v různých specializovaných oblastech. Uvedeme několik hlavních frameworků v současném oboru k rozšíření tohoto tvrzení.
1.1 Eliza
Nejprve zkuste Eliza od ai16z, tento framework je mnoha agentní simulační framework určený k vytváření, nasazení a správě autonomních AI agentů. Vyvinutý na základě programovacího jazyka TypeScript, jeho výhodou je lepší kompatibilita a snazší integrace API.
Podle oficiálních dokumentů se Eliza zaměřuje na scénáře sociálních médií, například podporu integrace více platforem; tento framework poskytuje plně funkční integraci Discordu s podporou hlasových kanálů, automatizovaných účtů na platformě X/Twitter, integraci Telegramu a přímý přístup k API. Co se týče zpracování mediálního obsahu, podporuje čtení a analýzu PDF dokumentů, extrakci a shrnutí obsahu z odkazů, přepis zvukových nahrávek, zpracování video obsahu, analýzu a popis obrazů a shrnutí dialogů.
Aktuální použitelné případy pro Elizu se dělí do čtyř kategorií:
Aplikace typu AI asistenta: Zákaznická podpora agentů, správci komunit, osobní asistenti.
Role na sociálních médiích: Automatizovaní tvůrci obsahu, interaktivní roboti, zástupci značek.
Pracovníci znalostí: Výzkumní asistenti, analytici obsahu, zpracovatelé dokumentů.
Interaktivní role: Hraní rolí, vzdělávací poradci, zábavní roboti.
Modely, které Eliza aktuálně podporuje:
Místní inference pro open-source modely: například Llama3, Qwen1.5, BERT.
Použití OpenAI API pro cloudovou inference.
Předvolené nastavení je Nous Hermes Llama 3.1B.
Integrace s Claudem pro provádění složitých dotazů.
1.2 G.A.M.E
G.A.M.E (Generative Autonomous Multimodal Entities Framework) je automatizovaný generativní a spravující multimodální AI framework, který byl navržen především pro inteligentní NPC ve hrách. Tento framework má také zvláštní aspekt, že i uživatelé s nízkým kódem nebo bez kódu mohou používat, podle jeho uživatelského rozhraní stačí, aby uživatelé upravili parametry, aby se zapojili do návrhu agentů.
V projektové architektuře je klíčový design G.A.M.E založen na modulárním designu, který umožňuje spolupráci více subsystémů. Podrobná struktura je znázorněna na následujícím obrázku.
1. Rozhraní pro návrh agentů: Rozhraní pro interakci vývojáře s AI frameworkem. Pomocí tohoto rozhraní mohou vývojáři inicializovat relaci a specifikovat parametry jako ID relace, ID agenta a ID uživatele.
2. Systém vnímání: Systém vnímání odpovídá za příjem vstupních zpráv a jejich syntézu, poté je předává strategickému plánovacímu enginu. Také zpracovává odpovědi modulu pro zpracování dialogu.
3. Strategický plánovací engine: Strategický plánovací engine je klíčovou součástí celé struktury, rozdělenou na vysokou úroveň plánovače a nízkou úroveň strategie. Vysoká úroveň plánovače se zabývá stanovením dlouhodobých cílů a plánů, zatímco nízká úroveň strategie tyto plány přetváří na konkrétní kroky.
4. Světový kontext: Světový kontext obsahuje informace o prostředí, stavu světa a stavu hry, které agentovi pomáhají pochopit aktuální situaci.
5. Modul pro zpracování dialogu: Modul pro zpracování dialogu odpovídá za zpracování zpráv a reakcí, může generovat dialogy nebo reakce jako výstup.
6. Operátor peněženky na řetězci: Operátor peněženky na řetězci může zahrnovat aplikace blockchainové technologie, konkrétní funkce nejsou jasné.
7. Učební modul: Učební modul se učí z zpětné vazby a aktualizuje databázi znalostí agentů.
8. Pracovní paměť: Pracovní paměť uchovává nedávné akce agentů, výsledky a aktuální plánované informace.
9. Procesor dlouhodobé paměti: Procesor dlouhodobé paměti odpovídá za extrakci důležitých informací o agentech a jejich pracovní paměti a řadí je na základě důležitosti, nedávnosti a relevance.
10. Sklad agentů: Sklad agentů uchovává cíle agentů, reflexe, zkušenosti a osobnost.
11. Plánovač akcí: Plánovač akcí generuje konkrétní akční plány na základě nízké úrovně strategie.
12. Executor plánu: Executor plánu odpovídá za provádění akčního plánu generovaného plánovačem akcí.
Pracovní tok: Vývojáři spouští agenta prostřednictvím uživatelského rozhraní pro návrh agentů; vnímání subsystému přijímá vstupy a předává je strategickému plánovacímu enginu. Strategický plánovací engine využívá paměťový systém, světový kontext a informace z knihovny agentů, aby formuloval a provedl akční plán. Učební modul neustále sleduje výsledky činnosti agenta a na základě těchto výsledků upravuje chování agenta.
Aplikační scénáře: Z pohledu celkové technické architektury se tato struktura zaměřuje na rozhodování, zpětnou vazbu, vnímání a osobnost agentů ve virtuálním prostředí. Kromě her je použitelná i pro Metaverse, kde je v seznamu pod Virtual již mnoho projektů, které tuto strukturu použily k výstavbě.
1.3 Rig
Rig je open-source nástroj napsaný v jazyce Rust, navržený tak, aby zjednodušil vývoj aplikací velkých jazykových modelů (LLM). Poskytuje jednotné operační rozhraní, které umožňuje vývojářům snadno interagovat s různými poskytovateli LLM (např. OpenAI a Anthropic) a různými vektorovými databázemi (jako MongoDB a Neo4j).
Klíčové vlastnosti:
Jednotné rozhraní: Bez ohledu na to, který poskytovatel LLM nebo jaký druh vektorového úložiště, Rig dokáže poskytnout konzistentní přístup, což výrazně snižuje složitost integrace.
Modulární architektura: V rámci frameworku se používá modulární design, který zahrnuje klíčové části jako „abstraktní vrstva poskytovatele“, „rozhraní pro ukládání vektorů“ a „inteligentní agentní systém“, což zajišťuje flexibilitu a rozšiřitelnost systému.
Typová bezpečnost: Využití vlastností Rustu k dosažení typové bezpečnosti v embedovaných operacích, která zajišťuje kvalitu kódu a bezpečnost během provádění.
Vysoce efektivní výkon: Podpora asynchronního programování optimalizuje schopnost zpracování v reálném čase; vestavěné funkce pro sledování a logování pomáhají při údržbě a odstraňování problémů.
Pracovní tok: Když uživatel požaduje přístup do systému Rig, nejprve projde „abstraktní vrstvou poskytovatele“, která standardizuje rozdíly mezi různými poskytovateli a zajišťuje konzistenci zpracování chyb. Poté, v jádrové vrstvě, může inteligentní agent volat různé nástroje nebo dotazovat vektorové úložiště, aby získal potřebné informace. Nakonec prostřednictvím pokročilých mechanismů, jako je vyhledávání zvýrazněné generováním (RAG), může systém kombinovat vyhledávání dokumentů a porozumění kontextu, aby generoval přesné a smysluplné odpovědi a vracel je uživatelům.
Aplikační scénáře: Rig je vhodný nejen pro vytváření systémů pro rychlé a přesné odpovědi na otázky, ale také pro vytváření efektivních nástrojů pro vyhledávání dokumentů, chatovacích robotů nebo virtuálních asistentů s kontextovým vnímáním, a dokonce podporuje tvorbu obsahu, automaticky generuje text nebo jinou formu obsahu podle existujících datových vzorů.
1.4 ZerePy
ZerePy je open-source framework založený na Pythonu, který usiluje o zjednodušení procesu nasazení a správy AI agentů na platformě X (dříve Twitter). Vznikl z projektu Zerebro, zdědil jeho klíčové funkce, ale byl navržen modulárně a lépe rozšiřitelně. Jeho cílem je umožnit vývojářům snadno vytvářet personalizované AI agenty a realizovat různé automatizované úkoly a obsahovou tvorbu na X.
ZerePy poskytuje rozhraní příkazového řádku (CLI), které usnadňuje uživatelům správu a kontrolu nasazených AI agentů. Jeho základní architektura je založena na modulárním designu, což umožňuje vývojářům flexibilně integrovat různé funkční moduly, například:
Integrace LLM: ZerePy podporuje velké jazykové modely (LLM) OpenAI a Anthropic, vývojáři mohou zvolit model, který nejlépe vyhovuje jejich aplikačnímu scénáři. To umožňuje agentům generovat vysoce kvalitní textový obsah.
Integrace s platformou X: Framework přímo integruje API platformy X, což umožňuje agentům provádět akce jako publikování, odpovídání, lajkování a retweetování.
Modulární propojený systém: Tento systém umožňuje vývojářům snadno přidávat podporu pro jiné sociální platformy nebo služby, a tím rozšiřovat funkce frameworku.
Systém paměti (budoucí plán): I když současná verze možná ještě není zcela realizována, cílem designu ZerePy je integrovat paměťový systém, aby agenti mohli pamatovat na předchozí interakce a kontextové informace, což povede k vytváření soudržnějšího a personalizovanějšího obsahu.
I když se projekty ZerePy a a16z Eliza snaží vytvořit a spravovat AI agenty, jejich struktura a cíle se mírně liší. Eliza se více zaměřuje na simulaci více agentů a širší výzkum AI, zatímco ZerePy se soustředí na zjednodušení procesu nasazení AI agentů na specifické sociální platformě (X), což je více orientováno na praktické aplikace.
2. Replika BTC ekosystému
Pokud jde o vývojovou cestu, AI agenti mají poměrně mnoho podobností s BTC ekosystémem na konci roku 2023 a začátku roku 2024. Vývojová cesta BTC ekosystému se dá stručně shrnout jako: BRC20—Atomical/Rune a další soutěžní protokoly—BTC L2—BTCFi se zaměřením na Babylon. AI agenti se vyvíjejí rychleji na základě vyspělé tradiční AI technologické základny, ale jejich celková vývojová cesta má mnoho podobností s BTC ekosystémem, což bych shrnul následovně: GOAT/ACT—Agenti typu Social—konkurence frameworků pro analytické AI agenty. Z pohledu trendu se očekává, že infrastrukturní projekty zaměřené na decentralizaci a bezpečnost agentů pravděpodobně přejdou na tuto vlnu frameworků a stanou se hlavním tématem další fáze.
Bude tato oblast směřovat k homogenizaci a spekulacím jako BTC ekosystém? Myslím, že nikoli. Za prvé, narativ AI agentů není zaměřen na replikaci historie inteligentních smluv; za druhé, technicky vyspělé projekty existujících AI frameworků, ať už skutečně mají sílu, nebo stagnují v fázi PPT či ctrl c+ctrl v, alespoň nabízejí nové myšlení pro rozvoj infrastruktury. Mnoho článků přirovnává AI frameworky k platformám pro vydávání aktiv a agenty k aktivům. Ve skutečnosti se mi zdá, že AI frameworky více připomínají budoucí veřejné řetězce, zatímco agenti se podobají budoucím Dappům.
V současném Crypto máme tisíce veřejných řetězců a desetitisíce Dappů. V rámci univerzálních řetězců máme BTC, Ethereum a různé heterogenní řetězce, přičemž formy aplikačních řetězců jsou různorodější, jako jsou herní řetězce, úložné řetězce a Dex řetězce. Veřejné řetězce odpovídající AI frameworkům jsou si ve skutečnosti velmi podobné a Dappy mohou dobře odpovídat agentům.
V éře AI se Crypto pravděpodobně ubírá tímto směrem, budoucí debaty se přesunou z diskuse o EVM a heterogenních řetězcích na disputace o frameworku. Nyní je otázka spíše o tom, jak decentralizovat nebo jinak zřetězit? Myslím, že budoucí AI infrastrukturní projekty se na tomto základě rozvinou, a druhá otázka zní, jaký smysl má dělat tuto věc na blockchainu?
3. Jaký má smysl být na řetězci?
Blockchain, ať už je kombinován s čímkoli, čelí jednomu zásadnímu otázce: má to smysl? V loňském článku jsem kritizoval, že GameFi je obrácením priorit, rozvoj infrastruktury je příliš daleko. V několika předchozích článcích o AI jsem také vyjádřil pesimismus ohledně kombinace AI x Crypto v současném praktickém poli. Koneckonců, hnací síla narativu pro tradiční projekty se stále více oslabuje, a mezi těmi málo tradičními projekty, které se loni vyznačovaly dobrým výkonem, většina musela mít sílu odpovídající nebo překračující cenu tokenu. Jaký užitek může AI mít pro Crypto? Představoval jsem si, že agenti mohou vykonávat záměry, Metaverse, agenti jako zaměstnanci a další relativně běžné, ale poptávané představy. Avšak tyto požadavky nemají nutnost být zcela na řetězci, a z obchodní logiky také nemohou být uzavřeny. V předchozím čísle zmíněného prohlížeče agentů, který realizuje záměry, může generovat poptávku po označování dat a výpočetní síle, ale obě kombinace zůstávají nedostatečně úzké a část výpočetní síly stále dominuje centralizovaná výpočetní síla.
Přeformulování úspěšné cesty DeFi, DeFi si dokázalo ukrojit kousek z tradičního financování, protože nabízí vyšší dostupnost, lepší efektivitu a nižší náklady, aniž by bylo nutné důvěřovat centralizované bezpečnosti. Pokud bychom uvažovali tímto směrem, myslím, že existuje několik důvodů, proč by mohla podpora agentů na řetězci dávat smysl.
1. Snížení nákladů: Může agent realizovat nižší náklady na používání, čímž dosáhne vyšší dostupnosti a výběrovosti? Nakonec, aby „pronájem práv“ AI, které patří pouze velkým společnostem Web2, umožnil běžným uživatelům také účast.
2. Bezpečnost: Podle nejjednodušší definice agenta by AI, kterou lze nazvat agentem, měla být schopna interagovat s virtuálním nebo reálným světem. Pokud agent může zasahovat do reality nebo do mého virtuálního peněženky, pak je bezpečnostní řešení založené na blockchainu také nutností.
3. Finanční mechanismy specifické pro blockchain: Může agent realizovat sadu exkluzivních finančních mechanismů pro blockchain? Například LP v AMM, což umožní běžným lidem účastnit se automatického market makingu, například agent potřebuje výpočetní výkon, označení dat atd., a uživatelé investují prostřednictvím U do protokolu za příznivých podmínek. Nebo na základě různých aplikačních scénářů mohou agenti vytvářet nové finanční mechanismy.
4. DeFi interoperabilita: DeFi v současnosti nemá dokonalou interoperabilitu; pokud by agenti kombinující blockchain mohli realizovat transparentní a sledovatelné inference, mohli by být atraktivnější než agenti prohlížečů poskytovaní tradičními internetovými giganty, o kterých se mluvilo v předchozím článku.
Čtyři, kreativita?
Projekty typu framework také v budoucnu poskytnou příležitosti podobné podnikání v GPT Store. I když je nyní pro běžné uživatele stále složité vydat agenta prostřednictvím frameworku, domnívám se, že zjednodušení procesu konstrukce agentů a poskytnutí některých složitých kombinací funkcí bude v budoucnu dominovat, což vytvoří zajímavější kreativní ekonomiku Web3 než GPT Store.
Současný GPT Store je stále orientován na tradiční oblasti praktičnosti a většina populárních aplikací byla vytvořena tradičními společnostmi Web2, přičemž příjmy jsou také monopolizovány tvůrci. Podle oficiálního vysvětlení OpenAI tato strategie poskytuje finanční podporu pouze některým výjimečným vývojářům v USA s určitou výší dotace.
Web3 stále vyžaduje mnoho oblastí, které je třeba naplnit, a v ekonomickém systému může udělat politiku Web2 gigantů spravedlivější. Kromě toho můžeme určitě zavést komunitní ekonomiku, aby se agenti stali ještě dokonalejšími. Kreativní ekonomika agentů bude příležitostí pro běžné lidi, a budoucí AI Meme bude mnohem inteligentnější a zábavnější než agenti vydávaní na GOAT nebo Clanker.
Odkaz na originál
Tento článek je autorizován k repostování z TechFlow
Zdroj
Dekonstrukce AI frameworku: Od inteligentních agentů k decentralizovanému průzkumu

Prozkoumat více od tvůrce

Nejnovější zprávy