Autore: accelxr, 1KX Traduzione: 0xjs@金财经

Lo scopo principale degli attuali modelli generativi è la creazione di contenuti e il filtraggio delle informazioni. Tuttavia, recenti ricerche e discussioni sugli agenti dell’intelligenza artificiale (attori autonomi che utilizzano strumenti esterni per raggiungere obiettivi definiti dall’utente) suggeriscono che l’intelligenza artificiale potrebbe essere sostanzialmente sbloccata se le fosse fornito un accesso economico simile a Internet degli anni ’90.

Per fare ciò, gli agenti necessitano di libertà d’azione sugli asset che possono controllare, poiché i sistemi finanziari tradizionali non sono predisposti per loro.

È qui che entrano in gioco le criptovalute: le criptovalute forniscono un livello di pagamento e proprietà digitale con regolamento rapido, particolarmente adatto per la creazione di agenti IA.

In questo articolo ti presenterò i concetti di agenti e architetture di agenti, esempi tratti dalla ricerca su come gli agenti possono dimostrare proprietà emergenti oltre il tradizionale LLM e progetti di creazione di soluzioni o prodotti attorno ad agenti basati sulla crittografia.

Cos'è un agente

Gli agenti AI sono entità guidate da LLM in grado di pianificare e intraprendere azioni per raggiungere obiettivi su più iterazioni.

Un'architettura ad agenti è costituita da un singolo agente o da più agenti che collaborano per risolvere i problemi.

In genere, a ciascun agente viene assegnata una personalità e ha accesso a una varietà di strumenti che lo aiuteranno a completare il proprio lavoro in modo indipendente o come parte di un team.

L'architettura dell'agente è diversa da come interagiamo normalmente con gli LLM oggi:

Il prompt zero-shot è il modo in cui la maggior parte delle persone interagisce con questi modelli: inserisci un prompt e LLM genera una risposta in base alla sua conoscenza preesistente.

In un'architettura ad agenti, si inizializza un obiettivo, LLM lo suddivide in sottoattività e quindi richiede ricorsivamente a se stesso (o ad altri modelli) di completare ciascuna sottoattività in modo autonomo fino al raggiungimento dell'obiettivo.

Architettura ad agente singolo e architettura multi-agente

Architettura ad agente singolo: un modello linguistico esegue autonomamente tutto il ragionamento, la pianificazione e l'esecuzione degli strumenti. Non esiste un meccanismo di feedback da parte di altri agenti, ma gli esseri umani possono scegliere di fornire feedback agli agenti.

Architetture multi-agente: queste architetture coinvolgono due o più agenti, in cui ciascun agente può utilizzare lo stesso modello linguistico o un insieme diverso di modelli linguistici. Gli agenti possono utilizzare lo stesso strumento o strumenti diversi. Ogni agente di solito ha il proprio ruolo.

  • Struttura verticale: un agente agisce come leader e gli altri agenti gli riferiscono. Ciò aiuta a organizzare l'output del gruppo.

  • Struttura orizzontale: una discussione di gruppo numerosa su un'attività, in cui ogni agente può vedere altri messaggi e offrirsi volontario per completare l'attività o chiamare strumenti.

Architettura dell'agente: file di configurazione

Gli agenti hanno profili, o personalità, che definiscono i ruoli come spunti per influenzare il comportamento e le competenze del LLM. Ciò dipende fortemente dall'applicazione specifica.

Probabilmente molte persone già oggi usano questa tecnica come suggerimento: "Tu sei l'esperto in nutrizione. Proponimi un programma alimentare...". È interessante notare che fornire ruoli a LLM migliora i suoi risultati rispetto allo scenario di base.

I file di configurazione possono essere creati nei seguenti modi:

  • Realizzato a mano: file di configurazione specificati manualmente da un creatore umano; il più flessibile, ma anche dispendioso in termini di tempo.​

  • Generazione LLM: utilizza un file di configurazione generato da LLM che contiene una serie di regole relative alla composizione e alle proprietà + (facoltativo) un numero limitato di esempi di esempio.

  • Allineamento dei set di dati: i profili vengono generati da set di dati di persone reali.

Architettura dell'agente: memoria

La memoria dell'agente immagazzina le informazioni percepite dall'ambiente e utilizza queste informazioni per formulare nuovi piani o azioni. La memoria consente a un agente di autoevolversi e di agire in base alle sue esperienze.​

  • Memoria unificata: simile alla memoria a breve termine attraverso l'apprendimento contestuale/tramite suggerimenti continui. Tutte le memorie rilevanti vengono passate all'agente ad ogni richiesta. Principalmente limitato dalla dimensione della finestra di contesto.​

  • Misto: memoria a breve termine + memoria a lungo termine. La memoria a breve termine è un buffer temporaneo dello stato attuale. Le informazioni riflessive o utili a lungo termine vengono archiviate in modo permanente nel database. Esistono diversi modi per farlo, ma uno comune è utilizzare database vettoriali (le memorie sono codificate come incorporamenti e archiviate; il richiamo proviene dalla ricerca per somiglianza)

  • Formato: linguaggio naturale, database (ad esempio SQL ottimizzato per comprendere le query SQL), elenco strutturato, incorporamento

Architettura dell'agente: pianificazione

Le attività complesse vengono scomposte in sottoattività più semplici da risolvere individualmente.

Nessuna pianificazione del feedback:

In questo approccio, dopo che l'agente ha eseguito un'azione, non riceve feedback che influiscono sul comportamento futuro. Un esempio è la Catena del Pensiero (CoT), in cui i LLM sono incoraggiati a esprimere i propri processi mentali quando forniscono risposte.

  • Ragionamento a percorso singolo (ad esempio CoT a passaggio zero)

  • Ragionamento a percorsi multipli (ad esempio CoT autoconsistente, in cui vengono generati più thread CoT e viene utilizzata la risposta con la frequenza più alta)

  • Pianificatori esterni (ad esempio Planning Domain Definition Language)

Pianificazione con feedback:

Perfezionare iterativamente le sottoattività in base al feedback esterno

  • Feedback ambientale (come il segnale di completamento dell'attività di gioco)

  • Feedback umano (ad esempio sollecitazione del feedback degli utenti)

  • Feedback del modello (ad esempio sollecitazione di feedback da un altro LLM - crowdsourcing)

Architettura dell'agente: azione

L'azione è responsabile della conversione del processo decisionale dell'agente in risultati specifici.

Gli obiettivi comportamentali si presentano in molte forme possibili, come ad esempio:

  • Compito completato (ad esempio creare un piccone di ferro in Minecraft)

  • Comunicazione (ad esempio condivisione di informazioni con un altro agente o essere umano)

  • Esplorazione ambientale (ad esempio, ricerca del proprio spazio comportamentale e apprendimento delle proprie capacità).

I comportamenti in genere nascono dal richiamo della memoria o dal seguito di un piano e lo spazio comportamentale è costituito da conoscenza interna, API, database/basi di conoscenza e modelli esterni del suo utilizzo.

Architettura dell'agente: acquisizione di capacità

Affinché un agente possa eseguire correttamente le azioni all'interno dello spazio di azione, deve possedere capacità specifiche per l'attività. Esistono principalmente due modi per raggiungere questo obiettivo:

  • Con ottimizzazione: forma il tuo agente su un set di dati comportamentali con annotazioni umane, generato da LLM o con esempi reali.

  • Non è richiesta alcuna messa a punto: le capacità innate di LLM possono essere sfruttate attraverso un'ingegneria di segnali e/o un'ingegneria di meccanismi più sofisticata (ad esempio, incorporando feedback esterni o accumulo di esperienza durante la conduzione di prove ed errori).

Esempi di agenti in letteratura

Agenti generativi: simulazione interattiva del comportamento umano: l'istanziazione di agenti generativi in ​​un ambiente sandbox virtuale mostra sistemi multi-agente con comportamento sociale emergente. Partendo da un singolo messaggio specificato dall'utente per l'imminente festa di San Valentino, l'agente trascorre i due giorni successivi inviando automaticamente inviti, incontrando nuove persone, frequentandosi a vicenda e coordinando la festa insieme al momento giusto. Puoi provarlo tu stesso utilizzando l'implementazione di a16z AI Town.

Descrizione Explained Plan Selection (DEPS): il primo agente multi-task zero-shot in grado di completare oltre 70 attività Minecraft.

Voyager: il primo agente basato su LLM di Minecraft che incarna l'apprendimento permanente, può esplorare continuamente il mondo, acquisire varie abilità e fare nuove scoperte senza l'intervento umano. Migliora continuamente il codice di esecuzione delle competenze in base al feedback derivante da tentativi ed errori.

CALYPSO: un agente progettato per il gioco "Dungeons and Dragons" che può assistere il Dungeon Master nella creazione e nel racconto di storie. La sua memoria a breve termine si basa su descrizioni di scene, informazioni sui mostri e riassunti precedenti.

Ghost in Minecraft (GITM): un agente con abilità medie in Minecraft, con una percentuale di successo del 67,5% per ottenere diamanti e una percentuale di completamento del 100% per tutti gli oggetti nel gioco.

SayPlan: pianificazione di missioni su larga scala basata su LLM per robot, utilizzando la rappresentazione grafica della scena 3D, dimostrando la capacità di eseguire una pianificazione di missione a lungo termine per robot da istruzioni astratte e in linguaggio naturale.

HuggingGPT: utilizza ChatGPT per pianificare le attività in base alle richieste dell'utente, selezionando modelli in base alle descrizioni su Hugging Face ed eseguendo tutte le attività secondarie, ottenendo risultati impressionanti nel linguaggio, nella visione, nel parlato e in altre attività impegnative.

MetaGPT: accetta input e output storie utente/analisi competitiva/requisiti/struttura dati/API/documentazione, ecc. Internamente, esistono più agenti che compongono le varie funzioni di un'azienda di software.

ChemCrow: un agente chimico LLM progettato per svolgere attività quali sintesi organica, scoperta di farmaci e progettazione di materiali utilizzando 18 strumenti progettati da esperti. Ha pianificato ed eseguito in modo indipendente la sintesi di un repellente per insetti e di tre organocatalizzatori e ha diretto la scoperta di un nuovo cromoforo.

BabyAGI: un'infrastruttura generica per creare, assegnare priorità ed eseguire attività utilizzando OpenAI e database vettoriali come Chroma o Weaviate.

AutoGPT: un altro esempio di infrastruttura generica per il lancio di agenti LLM.

Esempi di agenti in Crypto

(Nota: non tutti gli esempi sono basati su LLM + alcuni potrebbero essere basati più vagamente sui concetti di agente)

FrenRug di Ritualnet: basato sul gioco GPT-4 Turkish Carpet Salesman { https://aiadventure.spiel.com/carpet }. Frenrug è un broker che chiunque può provare a convincere ad acquistare la propria chiave Friend.tech. Ogni messaggio utente viene recapitato a più LLM in esecuzione su diversi nodi Infernet. Questi nodi rispondono in catena e LLM vota se l'agente deve acquistare la chiave proposta. Quando un numero sufficiente di nodi risponde, i voti vengono aggregati e il modello di classificatore supervisionato determina l’azione e fornisce una prova di validità on-chain, consentendo di verificare l’esecuzione off-chain del classificatore multinomiale.

Agente di mercato di previsione che utilizza autonole su Gnosis: il bot AI è essenzialmente un wrapper di contratto intelligente per il servizio AI che chiunque può chiamare pagando e ponendo domande. Il servizio monitora la richiesta, esegue attività e restituisce risposte on-chain. Questa infrastruttura di bot AI è stata estesa ai mercati di previsione attraverso Omen, dove l’idea di base è che gli agenti monitoreranno attivamente e scommetteranno sulle previsioni provenienti dall’analisi delle notizie, arrivando infine a previsioni aggregate più vicine alle probabilità reali. Gli agenti effettuano ricerche nel mercato su Omen, pagano autonomamente i "bot" per le previsioni sull'argomento e commerciano utilizzando il mercato.

ianDAOs GPT<>Safe demo: GPT utilizza l'API syndicateio Transaction Cloud per gestire autonomamente USDC nel portafoglio multi-firma Safe sulla propria catena Base. Puoi parlargli e dare suggerimenti su come utilizzare al meglio il suo capitale, e potrebbe allocarlo in base ai tuoi suggerimenti.

Agenti di gioco: ci sono molte idee qui, ma in poche parole, gli agenti IA negli ambienti virtuali sono sia compagni (come gli NPC IA in Skyrim) che concorrenti (come un gruppo di pinguini paffuti). Gli agenti possono automatizzare le strategie di guadagno, fornire beni e servizi (ad esempio negozianti, commercianti in viaggio, sofisticati fornitori di attività generative) o come personaggi semi-giocabili in Parallel Colony e Ai Arena.

Angeli custodi sicuri: utilizza un gruppo di agenti AI per monitorare i portafogli e difendersi da potenziali minacce per proteggere i fondi degli utenti e migliorare la sicurezza del portafoglio. Le funzionalità includono la revoca automatica delle autorizzazioni contrattuali e il prelievo di fondi in caso di anomalia o attacco di hacker.

Botto: Sebbene Botto sia un esempio vagamente definito di agente on-chain, dimostra il concetto di un artista on-chain autonomo, creando opere votate dai possessori di token e messe all'asta su SuperRare. Si possono immaginare varie estensioni che utilizzano l'architettura dell'agente multimodale. ---

Alcuni progetti di agenti degni di nota

(Nota: non tutti i progetti sono basati su LLM + alcuni potrebbero essere basati più vagamente sui concetti di agente)

AIWay Finder - Un grafico della conoscenza decentralizzato di protocolli, contratti, standard contrattuali, risorse, funzioni, funzioni API, routine + percorsi (ovvero una tabella di marcia virtuale dell'ecosistema blockchain che un agente pathfinder può navigare). Gli utenti verranno ricompensati per aver identificato i percorsi fattibili utilizzati dall'agente. Inoltre, puoi lanciare una shell (ovvero un agente) contenente la configurazione del personaggio e le attivazioni delle abilità, che possono quindi essere collegate al Pathfinder Knowledge Graph.

Ritualnet: come mostrato nell'esempio frenrug sopra, il nodo Infernet Ritual può essere utilizzato per impostare un'architettura multi-agente. I nodi ascoltano le richieste on-chain o off-chain e forniscono output con prove opzionali.

Morpheus: una rete peer-to-peer di intelligenza artificiale generale personale in grado di eseguire contratti intelligenti per conto degli utenti. Questo può essere utilizzato per il portafoglio web3 e la gestione degli intenti tx, l'analisi dei dati tramite interfacce chatbot, modelli di raccomandazione per dapp e contratti ed estendendo le operazioni dell'agente attraverso la memoria a lungo termine che collega l'applicazione e i dati dell'utente.

Protocollo Dain: esplora molteplici casi d'uso per la distribuzione di agenti su Solana. Recentemente ha dimostrato l'implementazione di un bot per il trading di criptovalute in grado di estrarre informazioni on-chain e off-chain da eseguire per conto degli utenti (ad esempio vendere BODEN se Biden perde)

Naptha: protocollo di orchestrazione degli agenti con un mercato delle attività on-chain per gli agenti contraenti, nodi operatore per orchestrare le attività, un motore di orchestrazione del flusso di lavoro LLM che supporta la messaggistica asincrona tra diversi nodi e un sistema di attestazione del flusso di lavoro per verificare l'esecuzione.

Myshell: una piattaforma di personaggi AI simile a personaggio.ai in cui i creatori possono monetizzare i profili e gli strumenti degli agenti. Infrastruttura multimodale con alcuni agenti di esempio interessanti tra cui traduzione, istruzione, compagnia, codifica, ecc. Contiene la semplice creazione di agenti senza codice e una modalità sviluppatore più avanzata per l'assemblaggio di widget AI.

AI Arena – Un gioco di combattimento PvP competitivo in cui i giocatori possono acquistare, allenarsi e competere contro NFT abilitati all'intelligenza artificiale. I giocatori addestrano i loro agenti NFT attraverso l'apprendimento per imitazione, in cui l'IA impara come giocare in diverse mappe e scenari apprendendo le probabilità associate alle azioni dei giocatori. Dopo l'allenamento, i giocatori possono inviare i propri agenti in battaglie classificate per guadagnare ricompense in gettoni. Non basato su LLM, ma comunque un esempio interessante delle possibilità del gioco d'agente.

Protocollo virtuale: un protocollo per la creazione e l'implementazione di agenti multimodali nei giochi e in altri spazi online. I tre principali archetipi del virtuale odierno includono mirror di caratteri IP, agenti con funzioni specifiche e avatar personali. I contributori contribuiscono con dati e modelli al virtuale e i validatori agiscono come guardiani. Esiste un livello economico di incentivi per promuovere lo sviluppo e la monetizzazione.

Brianknows: fornisce agli utenti un'interfaccia utente per interagire con agenti in grado di eseguire transazioni, ricercare informazioni specifiche sulla criptovaluta e implementare contratti intelligenti in modo tempestivo. Attualmente supporta oltre 10 operazioni in oltre 100 integrazioni. Un esempio recente è quello in cui un agente partecipa a ETH al Lido per conto di un utente che utilizza il linguaggio naturale.

Autonolas: fornisce agenti locali leggeri e basati su cloud, agenti decentralizzati gestiti dal consenso e un'economia di agenti professionali. Esempi importanti includono la DeFi e gli agenti basati sulle previsioni, la rappresentazione della governance basata sull’intelligenza artificiale e i mercati degli strumenti da agente ad agente. Fornendo un protocollo + stack OLAS per coordinare e incentivare le operazioni degli agenti, si tratta di un framework open source che consente agli sviluppatori di creare agenti di proprietà collettiva.

Creator.Bid: fornisce agli utenti agenti di personaggi dei social media collegati alle API in tempo reale X e Farcaster. I marchi possono lanciare agenti basati sulla conoscenza per eseguire contenuti coerenti con il marchio sulle piattaforme social.

Polywrap: offre vari prodotti basati su agenti come Indexer (un agente di social media di Farcaster), AutoTx (un agente di pianificazione ed esecuzione commerciale creato con Morpheus e stormo.io), predizioneprophet.ai (con Gnosis e l'agente di previsione Autonolas) e fundpublicgoods .ai (un agente per l'allocazione delle risorse di sovvenzione).

Verifica – Poiché i flussi economici saranno diretti dagli agenti, la verifica dell’output sarà molto importante (ne parleremo più in un prossimo articolo). I metodi di verifica includono zkML di Ora Protocol, soluzioni di teoria dei giochi di team come Modulus Labs + Giza + EZKL e soluzioni basate su hardware come TEE.​

Alcune riflessioni sugli agenti on-chain

  • Agenti posseduti, scambiabili e vincolati a token che possono svolgere vari tipi di funzioni, dalla compagnia alle applicazioni finanziarie,

  • Un agente che può identificare, apprendere e partecipare all'economia del gioco per tuo conto o un agente autonomo che può agire come giocatore in un ambiente collaborativo, competitivo o completamente simulato;

  • Agenti in grado di simulare il comportamento umano reale per opportunità di guadagno

  • Uno smart wallet gestito da più agenti che può fungere da gestore patrimoniale autonomo

  • Governance DAO gestita dall'intelligenza artificiale (ad esempio delega di token, creazione o gestione di proposte, miglioramenti dei processi, ecc.)

  • Utilizza l'archiviazione o il database web3 come sistema di incorporamento di vettori componibili per uno stato di memoria condiviso e persistente

  • Gli agenti attivi localmente partecipano alla rete di consenso globale ed eseguono compiti definiti dall'utente

  • Grafico della conoscenza delle interazioni e delle API dei protocolli esistenti e nuovi

  • Rete di guardiani autonomi, sicurezza multifirma, sicurezza dei contratti intelligenti e miglioramenti funzionali

  • Un DAO di investimento veramente autonomo (ad esempio, un collezionista DAO che utilizza i ruoli di storico dell'arte, analista degli investimenti, analista di dati e agente di degenerazione)

  • Simulazione e test sull'economia dei token e sulla sicurezza dei contratti

  • Gestione universale degli intenti, soprattutto nel contesto delle esperienze utente crittografiche come il bridging o la DeFi

  • progetto artistico o sperimentale

Attira il prossimo miliardo di utenti

Come ha recentemente affermato Jesse Walden, co-fondatore del Varaint Fund, gli agenti autonomi rappresentano un'evoluzione, non una rivoluzione, nel modo in cui viene utilizzata la blockchain: abbiamo già robot con task di protocollo, robot di precisione, ricercatori MEV, kit di strumenti robotici, ecc. Gli agenti sono solo un'estensione di tutto questo.

Molte aree delle criptovalute sono costruite in modo da facilitare l'esecuzione degli agenti, come i giochi completamente on-chain e la DeFi. Supponendo che il costo del LLM tenda a diminuire rispetto alle prestazioni delle attività + l’accessibilità alla creazione e all’implementazione di agenti aumenti, è difficile immaginare un mondo in cui gli agenti AI non dominino le interazioni on-chain e diventino il prossimo miliardo di utenti delle criptovalute.

Materiale di lettura:

Agenti IA in grado di effettuare operazioni bancarie utilizzando la blockchain

La nuova economia degli agenti AI funzionerà su Smart Account

Un sondaggio sugli agenti autonomi basati su modelli linguistici di grandi dimensioni (l'ho usato per identificare la tassonomia delle architetture ad agenti sopra, lo consiglio vivamente) 

ReAct: sinergia tra ragionamento e azione nei modelli linguistici

Agenti generativi: simulacri interattivi del comportamento umano

Riflessione: agenti linguistici con apprendimento per rinforzo verbale

Toolformer: i modelli linguistici possono insegnare a se stessi a utilizzare gli strumenti

Descrivere, spiegare, pianificare e selezionare: la pianificazione interattiva con modelli linguistici di grandi dimensioni consente agenti multi-task open-world 

Voyager: un agente incarnato dal finale aperto con modelli linguistici di grandi dimensioni

Documenti degli agenti LLM Repo GitHub

Collegamento originale