Autore originale: YBB Capital Researcher Zeke
Uno, inizia con la novità e il capriccio dell'attenzione
Nell'ultimo anno, a causa della mancanza di narrazione a livello applicativo, che non riesce a eguagliare la rapidità dell'emergere delle infrastrutture, il settore delle criptovalute è diventato progressivamente una competizione per le risorse di attenzione. Da Silly Dragon a Goat, da Pump.fun a Clanker, il capriccio per il nuovo ha portato a una competizione interna. Iniziando con le strategie più scontate per attrarre l'attenzione, siamo rapidamente passati a un modello di piattaforma unificato tra i richiedenti e i fornitori di attenzione, fino a quando le forme di vita siliconiche sono diventate nuovi fornitori di contenuti. Tra i vari veicoli bizzarri di Meme Coin, è emersa finalmente un'entità in grado di raggiungere un accordo tra i piccoli investitori e i VC: l'AI Agent.
L'attenzione è fondamentalmente un gioco a somma zero, ma la speculazione può effettivamente favorire una crescita selvaggia delle cose. Nell'articolo su UNI, abbiamo ricordato l'inizio del precedente periodo d'oro della blockchain; la rapida crescita del DeFi è stata innescata dall'era di mining LP avviata da Compound Finance, dove entrare e uscire da vari pool di mining con APY di migliaia o addirittura decine di migliaia era il modo più primordiale di competere in quel periodo; sebbene alla fine la situazione sia stata quella di vari pool di mining che crollano in un caos. Tuttavia, l'afflusso sfrenato di minatori d'oro ha effettivamente lasciato una liquidità senza precedenti nella blockchain, e il DeFi è infine sfuggito alla pura speculazione formando un settore maturo, soddisfacendo le esigenze finanziarie degli utenti in vari aspetti, come pagamenti, transazioni, arbitraggio, staking, ecc. Attualmente, l'AI Agent sta vivendo anche questa fase selvaggia; ciò che stiamo esplorando è come il Crypto possa meglio integrare l'AI e, infine, portare il livello applicativo a nuove vette.
Come gli agenti possono essere autonomi
Nel precedente articolo abbiamo introdotto brevemente l'origine di AI Meme: Truth Terminal, e le prospettive future per l'AI Agent; questo articolo si concentra prima di tutto sull'AI Agent stesso.
Iniziamo con la definizione di AI Agent; l'agente è un termine relativamente antico nel campo dell'AI, ma la sua definizione non è chiara. Esso enfatizza principalmente l'Autonomia, ovvero qualsiasi AI in grado di percepire l'ambiente e rispondere ad esso può essere chiamata Agent. Nella definizione odierna, l'AI Agent è più vicino agli agenti intelligenti, ovvero stabilire un sistema che imita le decisioni umane per i grandi modelli, e in ambito accademico questo sistema è visto come il modo più promettente per raggiungere l'AGI (Intelligenza Artificiale Generale).
Nelle versioni iniziali di GPT, possiamo percepire chiaramente che i grandi modelli sono molto simili agli esseri umani, ma nel rispondere a molte domande complesse, i grandi modelli possono solo fornire alcune risposte vaghe. La ragione fondamentale è che i grandi modelli di quel tempo si basavano sulla probabilità piuttosto che sulla causalità, e in secondo luogo, mancavano delle capacità che gli esseri umani possiedono, come l'uso di strumenti, la memoria e la pianificazione, che l'AI Agent può colmare. Quindi, per riassumere con una formula, AI Agent (agente intelligente) = LLM (grande modello) + Pianificazione + Memoria + Strumenti.
I modelli di grandi dimensioni basati su prompt sono più simili a persone statiche; solo quando inseriamo input, essi prendono vita. L'obiettivo degli agenti è essere persone più realistiche. Attualmente, gli agenti nel settore sono principalmente modelli fine-tuned basati sulle versioni Llama 70b o 405b open-source di Meta (con parametri diversi), dotati di memoria e della capacità di utilizzare strumenti API, mentre in altri aspetti potrebbero necessitare dell'assistenza o dell'input umano (inclusa l'interazione e la collaborazione con altri agenti). Quindi, possiamo osservare che la maggior parte degli agenti nel settore esiste ancora sotto forma di KOL sui social network. Per far sì che gli agenti siano più simili a esseri umani, è necessario integrare capacità di pianificazione e azione, con la catena di pensiero all'interno della pianificazione che è particolarmente cruciale.
Tre, Catena di Pensiero (Chain of Thought, CoT)
Il concetto di Catena di Pensiero (Chain of Thought, CoT) è emerso per la prima volta nel 2022, nella pubblicazione di Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), che evidenziava come generare una serie di passaggi di ragionamento intermedi per migliorare le capacità di ragionamento del modello e aiutarlo a comprendere e risolvere problemi complessi.
Un tipico CoT Prompt include tre parti: descrizione del compito con istruzioni chiare, basi logiche a supporto della risoluzione del compito, e un esempio di soluzione specifica. Questa struttura aiuta il modello a comprendere i requisiti del compito e, attraverso il ragionamento logico, avvicinarsi progressivamente alla risposta, migliorando così l'efficienza e l'accuratezza nella risoluzione dei problemi. Il CoT è particolarmente adatto per compiti che richiedono un'analisi approfondita e un ragionamento a più passaggi, come la risoluzione di problemi matematici, la scrittura di rapporti di progetto, ecc. Per compiti più semplici, il CoT potrebbe non portare vantaggi evidenti, ma per compiti complessi, può migliorare significativamente le prestazioni del modello, riducendo il tasso di errore attraverso strategie di risoluzione passo-passo e migliorando la qualità di completamento del compito.
Nella costruzione di un AI Agent, il CoT gioca un ruolo fondamentale; l'AI Agent deve comprendere le informazioni ricevute e prendere decisioni razionali basate su di esse. Il CoT, fornendo un modo ordinato di pensare, aiuta l'Agent a elaborare e analizzare efficacemente le informazioni in ingresso, trasformando i risultati dell'analisi in linee guida per azioni concrete. Questo metodo non solo migliora l'affidabilità e l'efficienza delle decisioni dell'Agent, ma aumenta anche la trasparenza del processo decisionale, rendendo il comportamento dell'Agent più prevedibile e tracciabile. Il CoT, scomponendo i compiti in piccoli passi, aiuta l'Agent a considerare attentamente ogni punto decisionale, riducendo gli errori decisionali causati dal sovraccarico di informazioni. Il CoT rende il processo decisionale dell'Agent più trasparente, rendendo più facile per gli utenti comprendere le basi delle decisioni dell'Agent. Nelle interazioni con l'ambiente, il CoT consente all'Agent di apprendere continuamente nuove informazioni e di adattare le strategie comportamentali.
Il CoT, come strategia efficace, non solo migliora le capacità di ragionamento dei grandi modelli linguistici, ma gioca anche un ruolo importante nella costruzione di AI Agent più intelligenti e affidabili. Sfruttando il CoT, i ricercatori e gli sviluppatori possono creare sistemi intelligenti più adattabili a ambienti complessi e dotati di alta autonomia. Il CoT ha dimostrato i suoi vantaggi unici nelle applicazioni pratiche, specialmente nella gestione di compiti complessi, scomponendo i compiti in una serie di piccoli passi, migliorando così non solo l'accuratezza nella risoluzione dei compiti, ma anche l'interpretabilità e il controllo del modello. Questo approccio passo-passo può ridurre significativamente gli errori decisionali in situazioni di compiti complessi, dovuti a un'eccessiva quantità di informazioni o alla loro complessità. Inoltre, questo metodo aumenta la tracciabilità e la verificabilità dell'intera soluzione.
La funzione centrale del CoT è quella di combinare pianificazione, azione e osservazione, colmando il divario tra ragionamento e azione. Questo modo di pensare consente all'AI Agent di formulare contromisure efficaci quando prevede possibili situazioni anomale, accumulando nuove informazioni e verificando previsioni precedentemente stabilite mentre interagisce con l'ambiente esterno, fornendo nuove basi per il ragionamento. Il CoT è come un potente motore di precisione e stabilità, aiutando l'AI Agent a mantenere un'elevata efficienza lavorativa in ambienti complessi.
Quattro, esigenze pseudo corrette
In quali aspetti della tecnologia AI dovrebbe integrarsi il Crypto? Nell'articolo dello scorso anno ho ritenuto che la decentralizzazione della potenza di calcolo e dei dati fosse un passo chiave per aiutare le piccole imprese e i singoli sviluppatori a risparmiare sui costi, e quest'anno, nel segmento Crypto x AI organizzato da Coinbase, abbiamo visto una suddivisione più dettagliata:
(1) Livello di calcolo (riferito a reti focalizzate sull'offerta di risorse GPU per sviluppatori di AI);
(2) Livello dati (riferito a reti che supportano l'accesso decentralizzato, l'orchestrazione e la verifica dei dati AI);
(3) Livello middleware (riferito a piattaforme o reti che supportano lo sviluppo, il deployment e l'hosting di modelli o agenti AI);
(4) Livello applicativo (riferito a prodotti orientati agli utenti che utilizzano meccanismi di AI on-chain, sia B2B che B2C).
In questi quattro livelli di suddivisione, ogni livello ha una grande visione, e l'obiettivo riassuntivo è combattere contro l'occupazione di Internet da parte dei giganti della Silicon Valley nella prossima era. Come ho detto lo scorso anno, dobbiamo davvero accettare che i giganti della Silicon Valley controllino esclusivamente la potenza di calcolo e i dati? Nei loro modelli chiusi e monopolistici, l'interno è un black box. La scienza, come la religione più creduta dall'umanità oggi, farà sì che ogni frase pronunciata dai grandi modelli in futuro sarà vista come verità da una grande parte delle persone. Ma come si può convalidare questa verità? Secondo le idee dei giganti della Silicon Valley, i diritti finali degli agenti saranno inimmaginabili, come il diritto di pagamento del tuo portafoglio, il diritto di utilizzo del terminale, come garantire che le persone non abbiano cattive intenzioni?
La decentralizzazione è l'unica risposta, ma a volte dobbiamo considerarne ragionevolmente l'integrazione. Quanti sono i pagatori di queste grandi visioni? In passato, potevamo compensare gli errori derivanti dall'idealizzazione tramite i Token senza considerare il ciclo commerciale. Oggi, la situazione è molto grave; il Crypto x AI deve integrare la realtà nella progettazione, ad esempio, come bilanciare l'offerta alle due estremità in un contesto di perdita di prestazioni e instabilità della potenza di calcolo, per raggiungere la competitività del cloud centralizzato? Quanti utenti reali avrà il progetto a livello di dati, come possiamo verificare la veridicità e l'efficacia dei dati forniti, e quali clienti hanno bisogno di questi dati? Gli altri due livelli seguono lo stesso ragionamento; in questo periodo non abbiamo bisogno di così tante pseudo esigenze apparentemente corrette.
Cinque, Meme ha creato SocialFi
Come ho detto nel primo paragrafo, il Meme ha già rapidamente creato una forma di SocialFi conforme al Web3. Friend.tech è stata la prima Dapp a scattare il via per questo giro di applicazioni sociali, ma purtroppo ha fallito a causa di un design di Token troppo affrettato. Pump.fun ha invece dimostrato la fattibilità della pura piattaforma, senza alcun Token e senza alcuna regola. I richiedenti e fornitori di attenzione si unificano; puoi pubblicare meme, fare streaming, emettere token, lasciare messaggi, scambiare, tutto è libero, Pump.fun addebita solo una commissione per il servizio. Questo è sostanzialmente in linea con il modello di economia dell'attenzione dei social media attuali come YouTube e Instagram, solo con diversi oggetti di costo, mentre nel gioco Pump.fun è più Web3.
Il Clanker di Base è il culmine di questo approccio, grazie all'integrazione ecologica realizzata direttamente dall'ecosistema. Base ha il proprio Dapp sociale come supporto, formando un ciclo interno completo. L'agente Meme è la forma 2.0 di Meme Coin, le persone cercano sempre novità, e Pump.fun si trova attualmente al centro dell'attenzione; dal punto di vista delle tendenze, è solo una questione di tempo prima che le fantasie delle forme di vita siliconiche sostituiscano i banali meme delle forme di vita carboniche.
Ho già menzionato il Base innumerevoli volte, solo che i contenuti di ciascuna menzione sono diversi. Dal punto di vista temporale, il Base non è mai stato un pioniere, ma è sempre un vincitore.
Sei, cos'altro può essere un agente?
Da un punto di vista pragmatico, è improbabile che gli agenti siano decentralizzati per un lungo periodo in futuro. Ciò che riguarda la costruzione degli agenti nel tradizionale campo dell'AI non è un semplice processo di decentralizzazione e open source che può risolvere il problema; richiede l'integrazione di varie API per accedere ai contenuti del Web2, e i costi operativi sono molto elevati. La progettazione della catena di pensiero e la collaborazione tra più agenti dipendono ancora spesso da un umano come intermediario. Affronteremo un lungo periodo di transizione fino a quando non apparirà una forma di integrazione adeguata, forse simile a UNI. Ma come ho detto nell'articolo precedente, credo ancora che gli agenti avranno un grande impatto sul nostro settore, proprio come l'esistenza dei Cex nel nostro settore, che è non corretto ma molto importante.
L'articolo pubblicato il mese scorso da Stanford Microsoft (Panoramica sugli AI Agent) descrive ampiamente le applicazioni degli agenti nei settori della sanità, delle macchine intelligenti e del mondo virtuale. Nell'appendice di questo articolo, ci sono già molti casi di sperimentazione in cui GPT-4 V partecipa come agente nello sviluppo di giochi AAA di alto livello.
Non è necessario forzare troppo la velocità di integrazione con la decentralizzazione; spero piuttosto che il primo pezzo del puzzle che l'agente completi sia la capacità e la velocità dal basso verso l'alto. Abbiamo così tante rovine narrative e spazi vuoti nel metaverso che hanno bisogno di essere riempiti, e in un momento opportuno considereremo come farlo diventare il prossimo UNI.
Riferimenti
La catena di pensiero dei grandi modelli "emergenti": di che tipo di abilità si tratta? Autore: Brain Extreme
Comprendere in un colpo d'occhio l'Agent, la prossima fermata dei grandi modelli. Autore: LinguaMind