Descompunerea cadrelor AI: De la agenți inteligenți la explorarea descentralizării

Autor: YBB Capital Researcher Zeke
Introducere
În articolele anterioare, am discutat de mai multe ori despre starea actuală a meme-urilor AI și despre dezvoltarea viitoare a agenților AI. Totuși, rapiditatea cu care se dezvoltă narațiunea pe scena agenților AI și evoluția acesteia sunt puțin copleșitoare. În ultimele două luni, de la deschiderea „terminalului adevărului” în timpul verii agenților, narațiunea care combină AI și Crypto a avut aproape săptămânal noi schimbări. Recent, atenția pieței a început din nou să se concentreze asupra proiectelor de tip „cadru” dominate de narațiuni tehnice, iar această nișă a generat deja mai multe „cai negri” cu o capitalizare de peste un miliard de dolari în ultimele săptămâni. Aceste tipuri de proiecte au generat, de asemenea, un nou model de emitere a activelor, în care proiectele emit monede prin intermediul bibliotecilor de cod Github, iar agenții creați pe baza cadrelor pot emite din nou monede. Cu cadrele ca bază și agenții deasupra. Deși seamănă cu o platformă de emitere a activelor, în realitate este o nouă formă de infrastructură specifică epocii AI care începe să apară. Cum ar trebui să privim această nouă tendință? Acest articol va începe cu o scurtă prezentare a cadrelor și va combina gândurile personale pentru a interpreta ce înseamnă cu adevărat cadrul AI pentru Crypto.
1. Ce este un cadru?
Din definiție, un cadru AI este un instrument de dezvoltare de bază sau o platformă, integrând un set de module, biblioteci și instrumente pre-construite, simplificând procesul de construire a unor modele AI complexe. Aceste cadre includ de obicei funcționalități pentru procesarea datelor, antrenarea modelelor și efectuarea de predicții. Pe scurt, cadrul poate fi înțeles ca un sistem de operare specific epocii AI, similar sistemelor de operare desktop precum Windows sau Linux, sau sistemelor mobile precum iOS și Android. Fiecare cadru are propriile sale avantaje și dezavantaje, permițând dezvoltatorilor să aleagă liber în funcție de nevoile specifice.
Deși termenul „cadru AI” este încă un concept emergent în domeniul Crypto, privit din perspectiva originilor sale, evoluția cadrelor AI se apropie de 14 ani, începând cu Theano, lansat în 2010. Atât în domeniul academic, cât și în industrie, există deja cadre foarte mature disponibile, precum TensorFlow de la Google, Pytorch de la Meta, PaddlePaddle de la Baidu, MagicAnimate de la ByteDance, fiecare având avantaje specifice pentru diferite scenarii.
Proiectele de cadre emergente în Crypto au fost create pe baza cererii mari de agenți generată de această tendință AI, extinzându-se ulterior în alte domenii ale Crypto și formându-se cadre AI în domenii specifice. Să luăm câteva dintre cadrele principale din industrie ca exemple pentru a extinde această afirmație.
1.1 Eliza
În primul rând, folosim Eliza de la ai16z ca exemplu. Acest cadru este un cadru de simulare multi-agent, special conceput pentru a crea, desfășura și gestiona agenți AI autonomi. Este dezvoltat folosind TypeScript ca limbaj de programare, avantajul său fiind compatibilitatea mai bună, facilitând integrarea API.
Conform documentației oficiale, scenariile principale vizate de Eliza sunt platformele de socializare, cum ar fi suportul pentru integrarea multiplatformă. Acest cadru oferă o integrare completă pentru Discord, suportând canale vocale, conturi automate pentru platforma X/Twitter, integrarea Telegram și acces direct la API. În ceea ce privește gestionarea conținutului media, suportă citirea și analiza documentelor PDF, extragerea și rezumarea conținutului din linkuri, transcrierea audio, gestionarea conținutului video, analiza și descrierea imaginilor, rezumarea dialogurilor.
Cazurile de utilizare pe care Eliza le suportă în prezent se împart în patru categorii:
Aplicații de tip asistent AI: agenți de suport pentru clienți, administratori de comunitate, asistenți personali;
Roluri în social media: creatori automați de conținut, roboți interactivi, reprezentanți ai brandurilor;
Lucrători în cunoștințe: asistenți de cercetare, analiști de conținut, procesatori de documente;
Roluri interactive: roluri de joc, tutori educaționali, roboți de divertisment.
Modelele suportate de Eliza în prezent:
Inferență locală a modelului open-source: de exemplu, Llama3, Qwen1.5, BERT;
Utilizarea API-ului OpenAI pentru inferență bazată pe cloud;
Configurarea implicită este Nous Hermes Llama 3.1B;
Integrarea cu Claude pentru a realiza interogări complexe.
1.2 G.A.M.E
G.A.M.E (Generative Autonomous Multimodal Entities Framework) este un cadru multimodal AI generativ și de gestionare automatizată lansat de Virtual, destinat în principal pentru designul NPC-urilor inteligente din jocuri. Acest cadru are un aspect special, permițând utilizatorilor fără cod sau cu cod redus să participe, iar conform interfeței de testare, utilizatorii trebuie doar să modifice parametrii pentru a participa la designul agenților.
În ceea ce privește arhitectura proiectului, designul central al G.A.M.E este un design modular care permite colaborarea între mai multe subsisteme, arhitectura detaliată este ilustrată mai jos.
Interfața de prompting a agentului: interfața prin care dezvoltatorii interacționează cu cadrul AI. Prin această interfață, dezvoltatorii pot iniția o sesiune și specifica ID-ul sesiunii, ID-ul agentului, ID-ul utilizatorului etc.;
Subsystemul de percepție: subsystemul de percepție este responsabil pentru primirea informațiilor de intrare și sintetizarea acestora înainte de a le trimite motorului de planificare strategică. De asemenea, acesta se ocupă de răspunsurile modulului de procesare a dialogului;
Motorul de planificare strategică: motorul de planificare strategică este partea centrală a întregului cadru, împărțită în planificatori de nivel înalt și politici de nivel inferior. Planificatorul de nivel înalt se ocupă cu stabilirea obiectivelor și planurilor pe termen lung, în timp ce politica de nivel inferior transformă aceste planuri în pași de acțiune concreți;
Contextul mondial: contextul mondial conține informații despre mediu, starea lumii și starea jocului etc., aceste informații sunt folosite pentru a ajuta agenții să înțeleagă contextul în care se află;
Modulul de procesare a dialogului: modulul de procesare a dialogului este responsabil pentru gestionarea mesajelor și răspunsurilor, generând dialoguri sau reacții ca output;
Operatorul portofelului pe blockchain: operatorul portofelului pe blockchain ar putea implica aplicații ale tehnologiei blockchain, funcționalitatea specifică nefiind clar definită;
Modulul de învățare: modulul de învățare învață din feedback și actualizează baza de cunoștințe a agentului;
Memoria de lucru: memoria de lucru stochează acțiunile recente ale agentului, rezultatele și informațiile pe termen scurt despre planurile curente;
Procesorul de memorie pe termen lung: procesorul de memorie pe termen lung este responsabil pentru extragerea informațiilor importante despre agent și memoria sa de lucru, clasificându-le în funcție de importanță, recență și relevanță;
Repository-ul agenților: repository-ul agenților stochează obiectivele, reflecțiile, experiențele și trăsăturile de personalitate ale agenților;
Planificatorul de acțiuni: planificatorul de acțiuni generează planuri de acțiune specifice pe baza politicilor de nivel inferior;
Executorul de planuri: executorul de planuri este responsabil pentru executarea planurilor de acțiune generate de planificatorul de acțiuni.
Flux de lucru: dezvoltatorii pornesc agenții prin interfața de prompting a agentului, subsystemul de percepție primește inputul și îl transmite motorului de planificare strategică. Motorul de planificare strategică utilizează sistemul de memorie, contextul mondial și informațiile din librăria agenților pentru a crea și executa un plan de acțiune. Modulul de învățare monitorizează continuu rezultatele acțiunilor agentului și ajustează comportamentul acestuia pe baza rezultatelor.
Cazuri de utilizare: Din întreaga arhitectură tehnologică, acest cadru se concentrează în principal pe deciziile, feedbackul, percepția și personalitatea agenților în medii virtuale. În plus față de jocuri, este de asemenea potrivit pentru Metavers, iar în lista de sub Virtual se poate observa că deja există multe proiecte care au adoptat acest cadru pentru construcție.
1.3 Rig
Rig este un instrument open-source scris în limbajul Rust, conceput pentru a simplifica dezvoltarea aplicațiilor bazate pe modele de limbaj mari (LLM). Oferă o interfață de operare unificată, permițând dezvoltatorilor să interacționeze cu mai mulți furnizori de servicii LLM (de exemplu, OpenAI și Anthropic) și diferite baze de date vectoriale (cum ar fi MongoDB și Neo4j).
Caracteristici principale:
Interfață unificată: indiferent de furnizorul LLM sau de tipul de stocare vectorială, Rig oferă un mod consistent de acces, reducând semnificativ complexitatea integrării;
Arhitectură modulară: cadrul utilizează un design modular, incluzând „stratul de abstractizare a furnizorilor”, „interfața de stocare vectorială” și „sistemul de agenți inteligenți” ca părți cheie, asigurând flexibilitatea și extensibilitatea sistemului;
Securitate de tip: utilizând caracteristicile Rust, s-a realizat o operație de încorporare de tip, garantând calitatea codului și securitatea în timpul execuției;
Performanță eficientă: suportă modul de programare asincron, optimizând capacitatea de procesare concurentă; funcțiile încorporate de jurnalizare și monitorizare ajută la întreținerea și depanarea.
Flux de lucru: Atunci când utilizatorul solicită accesul la sistemul Rig, acesta va trece mai întâi prin „stratul de abstractizare a furnizorilor”, care se ocupă de standardizarea diferențelor dintre diferiții furnizori și asigură consistența gestionării erorilor. Apoi, în stratul central, agenții inteligenți pot apela diferite instrumente sau consulta stocurile vectoriale pentru a obține informațiile necesare. În cele din urmă, prin mecanisme avansate precum generarea augmentată prin recuperare (RAG), sistemul poate combina recuperarea documentelor și înțelegerea contextului pentru a genera răspunsuri precise și semnificative, apoi le returnează utilizatorului.
Cazuri de utilizare: Rig este potrivit nu doar pentru construirea sistemelor de răspuns rapid și precis, ci și pentru crearea unor instrumente eficiente de căutare a documentelor, roboți de chat sau asistenți virtuali cu abilitatea de a percepe contextul, și chiar pentru susținerea creației de conținut, generând automat texte sau alte forme de conținut pe baza modelelor de date existente.
1.4 ZerePy
ZerePy este un cadru open-source bazat pe Python, destinat să simplifice desfășurarea și gestionarea agenților AI pe platforma X (fost Twitter). Este derivat din proiectul Zerebro, moștenind funcționalitățile sale de bază, dar fiind conceput într-un mod mai modular și mai ușor de extins. Obiectivul său este de a permite dezvoltatorilor să creeze cu ușurință agenți AI personalizați și să implementeze diverse sarcini automate și creație de conținut pe X.
ZerePy oferă o interfață de linie de comandă (CLI) care facilitează utilizatorului gestionarea și controlul agenților AI desfășurați „1”. Arhitectura sa de bază se bazează pe un design modular, permițând dezvoltatorilor să integreze flexibil diferite module funcționale, de exemplu:
Integrarea LLM: ZerePy suportă modelele de limbaj de mari dimensiuni (LLM) de la OpenAI și Anthropic, dezvoltatorii putând alege modelul cel mai potrivit pentru scenariul lor de utilizare. Acest lucru permite agenților să genereze conținut text de înaltă calitate;
Integrarea platformei X: cadrul se integrează direct cu API-ul platformei X, permițând agenților să posteze, răspundă, aprecieze, redistribuie etc.;
Sistem de conexiuni modulare: acest sistem permite dezvoltatorilor să adauge cu ușurință suport pentru alte platforme sociale sau servicii, extinzând funcționalitatea cadrului;
Sistem de memorie (planificări viitoare): Deși versiunea actuală poate să nu fie complet implementată, obiectivul de design al ZerePy include integrarea unui sistem de memorie, permițând agenților să-și amintească interacțiunile și informațiile contextuale anterioare pentru a genera conținut mai coerent și personalizat.
Deși ZerePy și proiectul Eliza de la a16z se concentrează pe construirea și gestionarea agenților AI, cele două au unele diferențe în arhitectură și obiective. Eliza se concentrează mai mult pe simularea multi-agent și pe cercetarea AI mai largă, în timp ce ZerePy se concentrează pe simplificarea desfășurării agenților AI pe platforma socială specifică (X), fiind mai orientat spre aplicațiile practice.
O copie a ecosistemului BTC
De fapt, din perspectiva evoluției, agenții AI au multe similarități cu ecosistemul BTC de la sfârșitul anului 23 și începutul anului 24, iar drumul de dezvoltare al ecosistemului BTC poate fi rezumat simplu astfel: competiția între multiple protocoale BRC20-Atomical/Rune - BTC L2 - BTCFi centrat pe Babylon. Agenții AI, pe de altă parte, evoluează mai rapid pe baza unui stivă de tehnologie AI tradițională matură, dar drumul lor de dezvoltare are multe asemănări cu ecosistemul BTC. Îl rezum simplu astfel: competiția cadrelor agentului GOAT/ACT - agenți de tip social - agenți AI de analiză. Din perspectiva tendinței, proiectele de infrastructură care se concentrează pe descentralizarea și securitatea agenților vor prelua probabil această tendință a cadrelor, devenind melodia principală a următoarei etape.
Așadar, va urma această nișă un parcurs similar cu ecosistemul BTC, devenind omogenă și supusă unei bule? Eu cred că nu, deoarece narațiunea agenților AI nu este destinată să reproducă istoria lanțurilor de contracte inteligente. În plus, proiectele existente de cadre AI, fie că sunt cu adevărat puternice sau stagnante la faza de PPT sau ctrl c+ctrl v, oferă cel puțin o nouă idee de dezvoltare a infrastructurii. Multe articole au comparat cadrele AI cu platformele de emitere a activelor, agenții fiind asemănați activelor, dar eu cred că cadrele AI sunt mai degrabă viitoarele lanțuri publice, iar agenții sunt viitoarele Dapp-uri.
În prezent, în Crypto avem mii de blockchain-uri publice și zeci de mii de Dapp-uri. În cadrul lanțurilor generice, avem BTC, Ethereum și diverse lanțuri heterogene, iar formele lanțurilor aplicației sunt mai variate, cum ar fi lanțuri de joc, lanțuri de stocare, lanțuri Dex. Blockchain-urile publice și cadrele AI sunt foarte asemănătoare, iar Dapp-urile se pot corela bine cu agenții.
În era AI, Crypto ar putea progresa în această direcție, iar dezbaterile viitoare vor trece de la disputele EVM și lanțuri heterogene la disputele cadrelor. Acum, întrebarea se concentrează mai mult pe cum să decentralizăm sau să lanțificăm? Aceasta este o direcție pe care proiectele de infrastructură AI viitoare o vor explora, iar o altă întrebare este: ce sens are să faci acest lucru pe blockchain?
Ce înseamnă să fiți pe blockchain?
Blockchain-ul, indiferent cu ce se combină, trebuie să se confrunte cu o întrebare: Are sens? În articolul de anul trecut, am criticat inversarea valorii în GameFi, iar dezvoltarea infrastructurii a fost prea avansată. În articolele anterioare despre AI, am exprimat că nu sunt optimist cu privire la combinația AI x Crypto în domeniile practice în această etapă. La urma urmei, forța motrice a narațiunilor pentru proiectele tradiționale devine din ce în ce mai slabă, iar puținele proiecte tradiționale care au avut performanțe bune în prețurile monedelor anul trecut au trebuit să aibă puterea de a se potrivi cu prețurile monedelor sau de a le depăși. Ce poate face AI pentru Crypto? M-am gândit anterior la ideea că agenții ar putea acționa în numele utilizatorilor, cum ar fi Metavers, agenți ca angajați, etc., idei relativ banale dar cu cerere. Totuși, aceste cerințe nu au nevoie de o integrare completă pe blockchain, din punct de vedere al logicii comerciale, nu pot crea un cerc închis. Ideea menționată anterior a browserului agenților care își îndeplinește intențiile ar putea genera cerințe pentru etichetarea datelor și puterea de inferență, dar combinația celor două nu este suficient de strânsă, iar partea de putere de calcul, luând în considerare mai multe aspecte, rămâne dominată de puterea de calcul centralizată.
Reevaluând calea spre succes a DeFi, motivul pentru care DeFi a reușit să obțină o parte din tradiționala finanțare este datorită accesibilității mai mari, eficienței mai bune și costurilor mai reduse, fără a necesita încredere în centralizare pentru securitate. Dacă ne gândim la această direcție, cred că ar putea exista și alte motive care să susțină lanțificarea agenților.
1. Poate lanțificarea agenților să realizeze costuri de utilizare mai mici, atingând astfel o accesibilitate și diversitate mai mari? În cele din urmă, să permită utilizatorilor obișnuiți să participe la „dreptul de închiriere” AI, care este de obicei rezervat marilor companii Web2;
2. Securitate, conform celei mai simple definiții a agentului, un AI care poate fi numit agent ar trebui să poată interacționa cu lumea virtuală sau reală. Dacă un agent poate interveni în realitate sau în portofelul meu virtual, atunci o soluție de securitate bazată pe blockchain devine o necesitate.
3. Poate agentul să creeze o nouă formă de joc financiar specifică blockchain-ului? De exemplu, LP în AMM, permitând oamenilor obișnuiți să participe automat la piață, sau agenții având nevoie de putere de calcul, etichetarea datelor, iar utilizatorii investind în protocol sub formă de U, în cazul în care au încredere. Sau, agenții din diferite scenarii de aplicație ar putea genera noi forme de joc financiar.
4. DeFi nu are în prezent interoperabilitate perfectă, iar un agent care combină tehnologia blockchain ar putea oferi o inferență transparentă și trasabilă, având o atracție mai mare decât browserul agentului oferit de giganții tradiționali ai internetului menționați anterior.
4. Creativitate?
Proiectele de tip cadru vor oferi în viitor oportunități de afaceri similare cu GPT Store. Deși lansarea unui agent prin cadru este în continuare complicată pentru utilizatorii obișnuiți, cred că simplificarea procesului de construcție a agenților și furnizarea unor combinații de funcții complexe va avea avantaj în viitor, formând astfel o economie creativă Web3 mai interesantă decât GPT Store.
În prezent, GPT Store este încă orientat spre utilitatea în domenii tradiționale, iar majoritatea aplicațiilor populare sunt create de companii tradiționale Web2, cu venituri care sunt deținute în întregime de creatori. Conform explicației oficiale a OpenAI, această strategie oferă suport financiar doar unora dintre dezvoltatorii deosebiți din Statele Unite, oferind o anumită sumă de subvenții.
Din perspectiva cererii, Web3 mai are multe aspecte de completat, iar în ceea ce privește sistemul economic, poate face politicile injuste ale gigantilor Web2 mai echitabile. În plus, putem introduce economia comunității pentru a îmbunătăți agenții. Economia creativă a agenților va fi o oportunitate la care pot participa oameni obișnuiți, iar viitoarele meme AI vor fi mult mai inteligente și interesante decât agenții emisi în GOAT sau Clanker.
Articole de referință:
1. Evoluția istorică a cadrelor AI și explorarea tendințelor
2. Bybit: Complexul AI Rig (ARC): cadrul agenților AI
3. Memetica valorii profunde: compararea orizontală a celor patru cadre Crypto×AI: condiții de adoptare, avantaje și dezavantaje, potențial de creștere
4. Documentația oficială Eliza
5. Documentația oficială Virtual
Descompunerea cadrelor AI: De la agenți inteligenți la explorarea descentralizării

Explorați mai multe de la acest creator

Ultimele știri