Autore: Zeke, ricercatore di capitale YBB

Prefazione

Negli articoli precedenti abbiamo discusso più volte le nostre opinioni sulla situazione attuale di AI Meme e sullo sviluppo futuro di AI Agent. Tuttavia, il rapido sviluppo e la drammatica evoluzione della narrativa del percorso dell'Agente AI sono ancora un po' travolgenti. In soli due mesi da quando "Terminal of Truth" ha aperto Agent Summer, la narrativa della combinazione di AI e Crypto è cambiata quasi ogni settimana. Recentemente l'attenzione del mercato ha cominciato a concentrarsi su progetti "quadro" dominati da narrazioni tecniche, solo nelle ultime settimane questo segmento ha prodotto molti cavalli oscuri con un valore di mercato di oltre 100 milioni o addirittura oltre 1 miliardo. Questo tipo di progetto ha anche generato un nuovo paradigma di emissione di asset, ovvero il progetto utilizza la base di codice Github per emettere monete e l'agente costruito sulla base del framework può anche emettere nuovamente monete. Prendi il frame come parte inferiore e l'agente come parte superiore. Sembra una piattaforma di emissione di asset, ma in realtà è un modello di infrastruttura emergente unico nell’era dell’intelligenza artificiale. Come dovremmo esaminare questa nuova tendenza? Questo articolo partirà dall'introduzione del framework e lo combinerà con il proprio pensiero per interpretare cosa significa il framework AI per Crypto?

1. Cos'è un quadro?

Per definizione, un framework AI è uno strumento o una piattaforma di sviluppo di basso livello che integra una serie di moduli, librerie e strumenti predefiniti per semplificare il processo di creazione di modelli AI complessi. Questi framework in genere includono anche funzionalità per l'elaborazione dei dati, l'addestramento di modelli e l'esecuzione di previsioni. In breve, si può anche intendere semplicemente il framework come un sistema operativo nell’era dell’intelligenza artificiale, come Windows e Linux nei sistemi operativi desktop, o iOS e Android nei terminali mobili. Ogni framework ha i suoi vantaggi e svantaggi e gli sviluppatori possono scegliere liberamente in base alle esigenze specifiche.

Sebbene il termine "AI framework" sia ancora un concetto emergente nel campo Crypto, a giudicare dalla sua origine, il processo di sviluppo dell'AI framework è in realtà passato quasi 14 anni da quando Theano è nata nel 2010. Nel tradizionale circolo dell'intelligenza artificiale, ci sono già framework molto maturi tra cui scegliere sia nel mondo accademico che nell'industria, come TensorFlow di Google, Pytorch di Meta, Flying Paddle di Baidu e MagicAnimate di Byte. Ciascuno di questi framework ha i suoi vantaggi per diversi scenari.

I progetti quadro attualmente emergenti in Crypto sono stati costruiti sulla base del gran numero di esigenze degli agenti all'inizio di questa ondata di boom dell'IA, e poi derivati ​​da altri percorsi Crypto, formando infine quadri AI in diverse suddivisioni. Prendiamo come esempi diversi framework tradizionali nel circolo attuale per espandere questa frase.

1.1 Elisa

解构AI框架:从智能代理到去中心化的探索

Innanzitutto, prendiamo come esempio Eliza di ai16z. Questo framework è un framework di simulazione multi-agente utilizzato specificamente per creare, distribuire e gestire agenti IA autonomi. Sviluppato sulla base di TypeScript come linguaggio di programmazione, il suo vantaggio è una migliore compatibilità e una più semplice integrazione API.

Secondo la documentazione ufficiale, lo scenario principale a cui Eliza si rivolge sono i social media, come il supporto dell'integrazione multipiattaforma. Il framework fornisce l'integrazione Discord completa e supporta canali vocali, account automatizzati sulla piattaforma X/Twitter, integrazione Telegram e diretta. accesso alle API. In termini di elaborazione dei contenuti multimediali, supporta la lettura e l'analisi di documenti PDF, l'estrazione e il riepilogo dei contenuti dei collegamenti, la trascrizione audio, l'elaborazione dei contenuti video, l'analisi e la descrizione delle immagini e il riepilogo dei dialoghi.

I casi d'uso attualmente supportati da Eliza rientrano principalmente in quattro categorie:

  1. Applicazioni di assistente AI: agenti dell'assistenza clienti, gestori di comunità, assistenti personali;

  2. Ruoli nei social media: creatore di contenuti automatizzato, bot interattivo, rappresentante del marchio;

  3. Lavoratori della conoscenza: assistenti di ricerca, analisti di contenuti, elaboratori di documenti;

  4. Personaggi interattivi: personaggi di giochi di ruolo, consulenti educativi, robot di intrattenimento.

Eliza attualmente supporta i modelli:

  1. Inferenza locale del modello open source: come Llama3, Qwen1.5, BERT;

  2. Inferenza basata sul cloud utilizzando l'API di OpenAI;

  3. La configurazione predefinita è Nous Hermes Llama 3.1B;

  4. Integrazione con Claude per query complesse.

1.2 GIOCO

G.A.M.E (Generative Autonomous Multimodal Entities Framework) è un framework AI multimodale per la generazione e la gestione automatica lanciato da Virtual. La sua scena principale è la progettazione di NPC intelligenti nei giochi. Un'altra caratteristica speciale di questo framework è che è low-code o anche gli utenti senza codice possono utilizzarlo. Secondo la sua interfaccia di prova, gli utenti devono solo modificare i parametri per partecipare alla progettazione dell'agente.

解构AI框架:从智能代理到去中心化的探索

In termini di architettura del progetto, il design principale di G.A.M.E è un design modulare che utilizza più sottosistemi per lavorare insieme. L'architettura dettagliata è la seguente.

解构AI框架:从智能代理到去中心化的探索

  1. Interfaccia di richiesta agente: l'interfaccia che consente agli sviluppatori di interagire con il framework AI. Attraverso questa interfaccia, gli sviluppatori possono inizializzare una sessione e specificare parametri quali ID sessione, ID agente, ID utente;

  2. Sottosistema di percezione: il sottosistema di percezione è responsabile di ricevere informazioni di input, sintetizzarle e inviarle al motore di pianificazione strategica. Gestisce anche le risposte dal modulo di elaborazione dei dialoghi;

  3. Motore di pianificazione strategica: il motore di pianificazione strategica è la parte centrale dell'intero quadro ed è suddiviso in pianificatore di alto livello (High Level Planner) e politica di basso livello (Low Level Policy). I pianificatori di alto livello sviluppano obiettivi e piani a lungo termine, mentre le strategie di basso livello traducono tali piani in azioni concrete;

  4. Contesto mondiale: il contesto mondiale contiene dati come informazioni ambientali, stato del mondo e stato del gioco. Queste informazioni vengono utilizzate per aiutare l'agente a comprendere la situazione attuale;

  5. Modulo di elaborazione del dialogo: il modulo di elaborazione del dialogo è responsabile dell'elaborazione di messaggi e risposte. Può generare dialoghi o reazioni come output;

  6. Operatore del portafoglio su catena: l'operatore del portafoglio su catena potrebbe essere coinvolto negli scenari applicativi della tecnologia blockchain e le funzioni specifiche non sono chiare;

  7. Modulo di apprendimento: il modulo di apprendimento apprende dal feedback e aggiorna la base di conoscenza dell'agente;

  8. Memoria di lavoro: la memoria di lavoro memorizza informazioni a breve termine come le azioni recenti, i risultati e i piani attuali dell'agente;

  9. Processore di memoria a lungo termine: il processore di memoria a lungo termine è responsabile dell'estrazione di informazioni importanti sull'agente e sulla sua memoria di lavoro e di classificarle in base a fattori quali punteggio di importanza, attualità e pertinenza;

  10. Repository dell'agente: il repository dell'agente memorizza gli obiettivi, le riflessioni, l'esperienza, la personalità e altri attributi dell'agente;

  11. Pianificatore d'azione: il pianificatore d'azione genera piani d'azione specifici basati su strategie di basso livello;

  12. Esecutore del piano: L'esecutore del piano è responsabile dell'esecuzione del piano d'azione generato dal pianificatore dell'azione.

Flusso di lavoro: lo sviluppatore avvia l'agente tramite l'interfaccia prompt dell'agente e il sottosistema di percezione riceve l'input e lo trasmette al motore di pianificazione strategica. Il motore di pianificazione strategica utilizza le informazioni provenienti dal sistema di memoria, dal contesto mondiale e dalla libreria degli agenti per formulare ed eseguire piani d'azione. Il modulo di apprendimento monitora continuamente i risultati delle azioni dell'Agente e regola il comportamento dell'Agente in base ai risultati.

Scenari applicativi: dal punto di vista dell'intera architettura tecnica, questo quadro si concentra principalmente sul processo decisionale, sul feedback, sulla percezione e sulla personalità dell'agente nell'ambiente virtuale. In termini di casi d'uso, oltre ai giochi, è applicabile anche a Metaverse. Puoi vedere nell'elenco qui sotto Virtual che sono già stati realizzati un gran numero di progetti utilizzando questo framework.

1.3 Impianto

解构AI框架:从智能代理到去中心化的探索

Rig è uno strumento open source scritto in Rust progettato per semplificare lo sviluppo di applicazioni LLM (Large Language Model). Consente agli sviluppatori di interagire facilmente con più fornitori di servizi LLM (come OpenAI e Anthropic) e vari database vettoriali (come MongoDB e Neo4j) fornendo un'interfaccia operativa unificata.

Caratteristiche principali:

  • Interfaccia unificata: indipendentemente dal provider LLM o dall'archiviazione vettoriale, Rig può fornire un metodo di accesso coerente, riducendo notevolmente la complessità del lavoro di integrazione;

  • Architettura modulare: il framework adotta un design modulare, comprese parti chiave come "livello di astrazione del provider", "interfaccia di archiviazione vettoriale" e "sistema di agenti intelligenti", garantendo la flessibilità e la scalabilità del sistema;

  • Sicurezza dei tipi: utilizzo delle funzionalità di Rust per implementare operazioni di incorporamento indipendenti dai tipi, garantendo la qualità del codice e la sicurezza del runtime;

  • Prestazioni efficienti: supporta la modalità di programmazione asincrona e ottimizza le capacità di elaborazione simultanea; le funzioni di registrazione e monitoraggio integrate aiutano la manutenzione e la risoluzione dei problemi.

Flusso di lavoro: quando una richiesta dell'utente entra nel sistema Rig, passerà prima attraverso il "livello di astrazione del provider", che è responsabile della standardizzazione delle differenze tra i diversi fornitori e di garantire coerenza nella gestione degli errori. Successivamente, nel livello centrale, l'agente intelligente può richiamare vari strumenti o interrogare l'archivio dei vettori per ottenere le informazioni richieste. Infine, attraverso meccanismi avanzati come Retrieval Augmented Generation (RAG), il sistema può combinare il recupero dei documenti e la comprensione del contesto per generare risposte accurate e significative prima di restituirle all’utente.

Scenari applicativi: Rig non è adatto solo per creare sistemi di risposta alle domande che richiedono risposte rapide e precise, ma può anche essere utilizzato per creare strumenti efficienti di ricerca di documenti, chatbot sensibili al contesto o assistenti virtuali e persino supportare la creazione di contenuti basata su modelli di dati esistenti Generare automaticamente testo o altre forme di contenuto.

1.4 ZerePy

解构AI框架:从智能代理到去中心化的探索

ZerePy è un framework open source basato su Python progettato per semplificare il processo di distribuzione e gestione degli agenti AI sulla piattaforma X (in precedenza Twitter). È nato dal progetto Zerebro, ereditandone le funzionalità principali ma progettato in modo più modulare e facilmente estensibile. L'obiettivo è consentire agli sviluppatori di creare facilmente agenti AI personalizzati e abilitare varie attività automatizzate e la creazione di contenuti su X.

ZerePy fornisce un'interfaccia a riga di comando (CLI) per facilitare agli utenti la gestione e il controllo dell'agente AI "1" distribuito. La sua architettura principale si basa su un design modulare, consentendo agli sviluppatori di integrare in modo flessibile diversi moduli funzionali, come:

  • Integrazione LLM: ZerePy supporta i modelli linguistici di grandi dimensioni (LLM) di OpenAI e Anthropic, consentendo agli sviluppatori di scegliere il modello che meglio si adatta ai loro scenari applicativi. Ciò consente all'agente di generare contenuto testuale di alta qualità;

  • Integrazione della piattaforma X: il framework integra direttamente l'API della piattaforma X, consentendo all'Agent di eseguire operazioni come pubblicare, rispondere, mettere mi piace e inoltrare;

  • Sistema di connessione modulare: questo sistema consente agli sviluppatori di aggiungere facilmente il supporto per altre piattaforme o servizi social ed estendere le funzionalità del framework;

  • Sistema di memoria (piani futuri): sebbene la versione attuale potrebbe non essere completamente implementata, gli obiettivi di progettazione di ZerePy includono l'integrazione di un sistema di memoria per consentire all'agente di ricordare le interazioni precedenti e le informazioni contestuali per generare contenuti più coerenti e personalizzati.

Sebbene ZerePy e il progetto Eliza di a16z si concentrino entrambi sulla creazione e sulla gestione di agenti IA, hanno architetture e obiettivi leggermente diversi. Eliza si concentra maggiormente sulla simulazione multi-agente e su una più ampia ricerca sull'intelligenza artificiale, mentre ZerePy si concentra sulla semplificazione del processo di distribuzione degli agenti AI su una specifica piattaforma social (X), preferendo la semplificazione nelle applicazioni pratiche.

2. Una replica dell'ecosistema BTC

Infatti, in termini di percorso di sviluppo, AI Agent presenta molte somiglianze con l'ecosistema BTC tra la fine del 2023 e l'inizio del 2024. Il percorso di sviluppo dell'ecosistema BTC può essere semplicemente riassunto come: BRC20-Atomic/Rune e altre competizioni multiprotocollo- BTC L2-Babylon BTCFi per il core. AI Agent si è sviluppato più rapidamente sulla base dello stack tecnologico AI tradizionale e maturo, ma il suo percorso di sviluppo complessivo ha molte somiglianze con l'ecosistema BTC. Lo riassumerò brevemente come segue: GOAT/ACT-Social Agent/Analysis AI Agent-like framework concorrenza. In termini di tendenze, i progetti infrastrutturali incentrati sulla decentralizzazione e sulla sicurezza degli agenti molto probabilmente prenderanno il sopravvento su questa ondata di mania dei framework e diventeranno il tema principale della fase successiva.

Quindi questa traccia diventerà omogenea e bollerà come l’ecosistema BTC? Penso che non sia così. Innanzitutto, la narrativa di AI Agent non è quella di riprodurre la storia della catena dei contratti intelligenti. In secondo luogo, se i progetti quadro AI esistenti sono tecnicamente potenti o bloccati nella fase PPT o ctrl c+ ctrl v, almeno forniscono nuove idee per lo sviluppo delle infrastrutture. Molti articoli paragonano il framework AI a una piattaforma di emissione di asset e l'Agente a un asset. In effetti, rispetto a Memecoin Launchpad e Inscription Protocol, personalmente ritengo che il framework AI sia più simile alla catena pubblica del futuro. e l'Agente è più simile al Dapp del futuro.

Nelle Crypto di oggi abbiamo migliaia di catene pubbliche e decine di migliaia di Dapp. Tra le catene generali abbiamo BTC, Ethereum e varie catene eterogenee, mentre le forme di catene applicative sono più diverse, come catene di giochi, catene di stoccaggio e catene Dex. La catena pubblica corrisponde al framework AI, infatti i due sono molto simili nell'aspetto, e Dapp può corrispondere molto bene anche all'Agente.

È molto probabile che le criptovalute nell'era dell'intelligenza artificiale si spostino verso questa forma. Anche il dibattito futuro si sposterà dal dibattito tra EVM e catene eterogenee al dibattito sui framework. Il problema attuale riguarda più come decentralizzare o dire Chaining. A questo proposito, penso che i successivi progetti di infrastrutture AI verranno lanciati su questa base, e un altro punto è: che senso ha farlo sulla blockchain?

3. Qual è il significato di avvolgimento?

Non importa con cosa sia combinata la blockchain, alla fine dovrà affrontare una domanda: ha senso? Nell'articolo dell'anno scorso ho criticato GameFi per aver messo il carro davanti ai buoi e per il passaggio di Infra allo sviluppo avanzato. Negli articoli precedenti sull'intelligenza artificiale ho anche espresso che non ero ottimista riguardo alla combinazione AI x Crypto in campo pratico in questa fase. . Dopotutto, la forza trainante della narrativa è diventata sempre più debole per i progetti tradizionali. I pochi progetti tradizionali che hanno ottenuto buoni risultati in termini di prezzi valutari lo scorso anno hanno sostanzialmente la capacità di eguagliare o superare i prezzi valutari. Che utilità può avere l’intelligenza artificiale per le criptovalute? Quello a cui pensavo prima era l'idea di un agente che opera per conto dell'implementazione, Metaverse, agenti come dipendenti, ecc., che sono idee relativamente comuni ma molto richieste. Tuttavia, non è necessario che questi requisiti siano completamente collegati alla catena e il ciclo non può essere chiuso dal punto di vista della logica aziendale. L'intento di implementazione del browser dell'agente menzionato nel numero precedente può effettivamente derivare requisiti per l'etichettatura dei dati, la potenza di calcolo dell'inferenza, ecc. Tuttavia, la combinazione dei due non è ancora abbastanza vicina e la parte della potenza di calcolo è ancora dominata dalla potenza di calcolo centralizzata. in molti aspetti.

解构AI框架:从智能代理到去中心化的探索

Ripensare il successo della DeFi Il motivo per cui la DeFi può prendere una fetta della torta dalla finanza tradizionale è perché ha una maggiore accessibilità, una migliore efficienza, costi inferiori e non ha bisogno di fidarsi della sicurezza centralizzata. Se si segue questa linea di pensiero, penso che potrebbero esserci diversi motivi per supportare il concatenamento degli agenti.

1. Il concatenamento degli agenti può ottenere costi di utilizzo inferiori e ottenere una maggiore accessibilità e selettività? In definitiva, i “diritti di noleggio” dell’IA che appartengono esclusivamente alle principali società Web2 potranno essere partecipati anche dagli utenti ordinari;

2. Sicurezza. Secondo la definizione più semplice di Agente, un'intelligenza artificiale che può essere chiamata Agente dovrebbe essere in grado di interagire con il mondo virtuale o reale. Se l'Agente può intervenire nella realtà o nel mio portafoglio virtuale, allora una soluzione di sicurezza basata su blockchain Può anche essere considerato un bisogno rigido;

3. L'Agente può implementare una serie di gameplay finanziari unici per la blockchain? Ad esempio, LP in AMM consente alle persone comuni di partecipare al market making automatico. Ad esempio, l'Agente richiede potenza di calcolo, etichettatura dei dati, ecc. e gli utenti investono nell'accordo sotto forma di U se sono ottimisti. Oppure è possibile creare un nuovo gameplay finanziario basato su agenti in diversi scenari applicativi;

4. La DeFi attualmente non ha un'interoperabilità perfetta. Se l'agente combinato con la blockchain riesce a ottenere un ragionamento trasparente e tracciabile, potrebbe essere più attraente del browser dell'agente fornito dai tradizionali giganti di Internet menzionati nell'articolo precedente.

4. Creatività?

I progetti quadro forniranno anche opportunità imprenditoriali simili a GPT Store in futuro. Sebbene attualmente pubblicare un agente attraverso un framework sia ancora molto complicato per gli utenti comuni, penso che i framework che semplificano il processo di costruzione dell'agente e forniscono alcune combinazioni di funzioni complesse prevarranno ancora in futuro, formando così un'economia creativa Web3 più interessante di GPT Store .

L'attuale GPT Store preferisce ancora la praticità nei campi tradizionali e la maggior parte delle app popolari sono create da società Web2 tradizionali e il reddito è di proprietà esclusiva dei creatori. Secondo la spiegazione ufficiale di OpenAI, questa strategia fornisce solo supporto finanziario e una certa quantità di sussidi ad alcuni sviluppatori eccezionali negli Stati Uniti.

Web3 ha ancora molti aspetti che devono essere soddisfatti in termini di domanda e il sistema economico può anche rendere più giuste le politiche ingiuste dei giganti Web2. Inoltre, possiamo naturalmente introdurre l'economia comunitaria per rendere l'Agente più perfetto. L'economia creativa di Agent sarà un'opportunità di partecipazione per la gente comune, e il futuro AI Meme sarà molto più intelligente e interessante degli Agent rilasciati su GOAT e Clanker.

Articolo di riferimento:

1. Evoluzione storica ed esplorazione delle tendenze del framework AI

2.Bybit: AI Rig Complex (ARC): struttura dell'agente AI

3. Deep Value Memetics: confronto orizzontale dei quattro principali framework Crypto×AI: stato di adozione, vantaggi e svantaggi e potenziale di crescita

4. Documenti ufficiali Eliza

5.Documentazione ufficiale virtuale