Autore: YBB Capital Researcher Zeke
Uno, iniziato dall'usura dell'attenzione
Nell'ultimo anno, a causa dell'interruzione della narrazione del livello applicativo, che non può tenere il passo con la velocità dell'esplosione dell'infrastruttura, il settore delle criptovalute è gradualmente diventato un gioco di conquista delle risorse di attenzione. Da Silly Dragon a Goat, da Pump.fun a Clanker, la novità e l'usura dell'attenzione hanno reso questa battaglia interna. Iniziando con il più banale attrarre l'attenzione per monetizzarla, si è rapidamente evoluto in un modello di piattaforma unificato tra domanda e offerta di attenzione, fino a quando le creature basate su silicio sono diventate i nuovi fornitori di contenuti. Tra le varie forme bizzarre del Meme Coin è finalmente emersa un'esistenza che può far convergere i piccoli investitori e i VC: l'agente AI.
L'attenzione è in definitiva un gioco a somma zero, ma la speculazione può effettivamente promuovere una crescita selvaggia delle cose. Abbiamo rivisitato nell'articolo su UNI l'inizio del precedente periodo d'oro della blockchain, la crescita esplosiva di DeFi è stata innescata dall'era del mining LP aperta da Compound Finance, entrare ed uscire da diverse piscine minerarie con APY di migliaia o addirittura decine di migliaia era il modo più primordiale di giocare on-chain in quel periodo, anche se alla fine la situazione si è conclusa nel crollo di varie piscine. Tuttavia, l'afflusso folle dei minatori d'oro ha effettivamente lasciato una liquidità senza precedenti nella blockchain, DeFi si è infine evoluta oltre la pura speculazione formando un settore maturo, soddisfacendo le esigenze finanziarie degli utenti in vari aspetti come pagamenti, transazioni, arbitraggio, staking, ecc. E l'agente AI sta attualmente vivendo questa fase selvaggia, stiamo cercando di capire come la Crypto possa integrarsi meglio con l'AI, e alla fine incoraggiare il livello applicativo a raggiungere nuove vette.
Due, come gli agenti agiscono autonomamente
Nell'articolo precedente abbiamo brevemente introdotto l'origine dell'AI Meme: Truth Terminal, e la prospettiva futura degli agenti AI, questo articolo si concentra innanzitutto sull'agente AI stesso.
Iniziamo dalla definizione di agente AI, l'agente è un termine relativamente antico nel campo dell'AI ma con una definizione poco chiara, enfatizza principalmente l'Autonomia, ossia qualsiasi AI in grado di percepire l'ambiente e rispondere può essere chiamata agente. Nella definizione attuale, l'agente AI è più vicino all'agente intelligente, cioè impostare un sistema per il grande modello che imita le decisioni umane, questa sistema è considerato dalla comunità accademica come il modo più promettente per raggiungere l'AGI (Intelligenza Artificiale Generale).
Nelle prime versioni di GPT, potevamo percepire chiaramente che i grandi modelli somigliavano molto agli esseri umani, ma quando si trattava di rispondere a molte domande complesse, i grandi modelli potevano solo dare alcune risposte vaghe. La ragione principale è che i grandi modelli dell'epoca si basavano sulla probabilità piuttosto che sulla causalità, inoltre mancavano delle capacità umane di utilizzare strumenti, memoria, pianificazione, ecc., mentre l'agente AI può colmare queste lacune. Quindi, per riassumere in una formula, Agente AI (agente) = LLM (grande modello) + Pianificazione + Memoria + Strumenti.
Un grande modello basato su parole chiave (Prompt) assomiglia più a una persona statica, solo quando inseriamo informazioni, prende vita, mentre l'obiettivo dell'agente è quello di essere una persona più reale. Attualmente, gli agenti all'interno del settore si basano principalmente su modelli fine-tuned della versione Llama 70b o 405b open source di Meta (con parametri diversi), dotati di memoria e capacità di utilizzare strumenti API, mentre in altri aspetti potrebbero necessitare dell'aiuto o dell'ingresso umano (inclusa l'interazione e la collaborazione con altri agenti), quindi possiamo vedere che gli agenti principali nel settore esistono ancora come KOL sui social network. Per rendere l'agente più simile a un essere umano, è necessario integrare capacità di pianificazione e azione, con particolare attenzione alla catena di pensiero nella pianificazione.
Tre, catena di pensiero (Chain of Thought, CoT)
Il concetto di catena di pensiero (Chain of Thought, CoT) è emerso per la prima volta nel 2022 nel documento pubblicato da Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), dove si afferma che si può migliorare la capacità di ragionamento del modello generando una serie di passaggi intermedi, aiutando il modello a comprendere e risolvere meglio problemi complessi.
Un tipico Prompt di CoT comprende tre parti: descrizione chiara del compito, basi logiche a sostegno della soluzione del compito, esempi di basi teoriche o principi e soluzioni specifiche. Questa struttura aiuta il modello a comprendere i requisiti del compito, avvicinandosi alla risposta attraverso il ragionamento logico, aumentando così l'efficienza e l'accuratezza nella risoluzione dei problemi. CoT è particolarmente adatto per compiti che richiedono un'analisi approfondita e un ragionamento a più passaggi; per compiti semplici, CoT potrebbe non portare vantaggi evidenti, ma per compiti complessi, può migliorare significativamente le prestazioni del modello, riducendo il tasso di errore e aumentando la qualità del completamento del compito.
Nella costruzione dell'agente AI, CoT ha svolto un ruolo chiave, l'agente deve comprendere le informazioni ricevute e prendere decisioni ragionevoli sulla base di queste, CoT fornisce un modo di pensiero ordinato, aiutando l'agente a gestire e analizzare le informazioni in input, trasformando i risultati dell'analisi in linee guida d'azione specifiche; questo metodo non solo migliora l'affidabilità e l'efficienza delle decisioni dell'agente, ma aumenta anche la trasparenza del processo decisionale, rendendo il comportamento dell'agente più prevedibile e tracciabile. CoT, suddividendo il compito in vari piccoli passi, aiuta l'agente a considerare attentamente ogni punto decisionale, riducendo le decisioni errate causate dall'eccesso di informazioni. CoT rende il processo decisionale dell'agente più trasparente, facilitando la comprensione degli utenti sulle basi delle decisioni dell'agente. Nelle interazioni con l'ambiente, CoT consente all'agente di apprendere continuamente nuove informazioni e adattare le strategie comportamentali.
CoT come strategia efficace non solo ha migliorato la capacità di ragionamento dei grandi modelli linguistici, ma ha anche svolto un ruolo importante nella costruzione di agenti AI più intelligenti e affidabili. Utilizzando CoT, i ricercatori e gli sviluppatori possono creare sistemi intelligenti più adattabili a ambienti complessi e altamente autonomi. CoT ha mostrato i suoi vantaggi unici nelle applicazioni pratiche, specialmente nella gestione di compiti complessi, suddividendo i compiti in una serie di piccoli passi, non solo migliora l'accuratezza della risoluzione dei compiti, ma aumenta anche l'interpretabilità e il controllo del modello. Questo approccio graduale alla risoluzione dei problemi può ridurre significativamente le decisioni errate causate da un'eccessiva informazione o complessità quando ci si trova di fronte a compiti complessi. Inoltre, questo metodo aumenta anche la tracciabilità e la verificabilità dell'intera soluzione.
La funzione principale di CoT è quella di combinare pianificazione, azione e osservazione, colmando il divario tra ragionamento e azione. Questo modo di pensare consente all'agente AI di elaborare strategie efficaci quando prevede possibili anomalie e, mentre interagisce con l'ambiente esterno, accumula nuove informazioni e verifica le previsioni preimpostate, fornendo nuove basi per il ragionamento. CoT è come un potente motore di precisione e stabilità, che aiuta l'agente AI a mantenere un'efficienza lavorativa elevata in ambienti complessi.
Quattro, la falsa domanda corretta
In quali aspetti la Crypto deve integrarsi con lo stack tecnologico dell'AI? Nell'articolo dell'anno scorso, ritenevo che la decentralizzazione della potenza di calcolo e dei dati fosse un passo chiave per aiutare le piccole imprese e i sviluppatori individuali a risparmiare costi, mentre quest'anno, nella suddivisione dettagliata di Crypto x AI compilata da Coinbase, abbiamo visto una classificazione più dettagliata:
(1) Livello computazionale (riferito a reti focalizzate nel fornire risorse di unità di elaborazione grafica (GPU) per sviluppatori AI);
(2) Livello dati (riferito a reti che supportano l'accesso decentralizzato, l'orchestrazione e la verifica dei dati AI);
(3) Livello middleware (riferito alle piattaforme o reti che supportano lo sviluppo, il deployment e l'hosting di modelli o agenti AI);
(4) Livello applicativo (riferito ai prodotti orientati agli utenti che utilizzano meccanismi AI on-chain, sia B2B che B2C).
In questi quattro strati di suddivisione, ogni strato ha una grande visione, il cui obiettivo è riassunto nel combattere l'egemonia dei giganti della Silicon Valley per il prossimo era di Internet. Come ho detto l'anno scorso, dobbiamo davvero accettare che i giganti della Silicon Valley controllino esclusivamente la potenza di calcolo e i dati? Sotto il loro monopolio, i modelli di grandi dimensioni a codice sorgente chiuso sono una scatola nera, la scienza, come la religione più creduta oggi dall'umanità, farà sì che ogni parola risposta dal grande modello sarà vista come verità da una grande parte delle persone, ma come può essere verificata questa verità? Secondo la visione dei giganti della Silicon Valley, i diritti finali posseduti dagli agenti intelligenti supereranno l'immaginazione, come avere il diritto di pagamento del tuo portafoglio, il diritto di utilizzare il terminale, come garantire che l'uomo non abbia cattive intenzioni?
La decentralizzazione è l'unica risposta, ma a volte dobbiamo considerare ragionevolmente quanti siano i pagatori di queste grandi visioni? In passato, potevamo non considerare il ciclo commerciale, compensando l'errore portato dall'idealizzazione attraverso i token. Ma la situazione attuale è molto seria, Crypto x AI deve essere progettato tenendo conto della realtà, ad esempio, come bilanciare i due lati della potenza di calcolo in caso di perdita di prestazioni e instabilità? Per realizzare la competitività del cloud centralizzato. Quanti utenti reali ci saranno nei progetti del layer dati, come verificare la verità e l'efficacia dei dati forniti, e quali clienti hanno bisogno di questi dati? Gli altri due layer sono analoghi, in questa era non abbiamo bisogno di così tante domande false che sembrano corrette.
Cinque, i Meme sono usciti da SocialFi
Come ho detto nel primo paragrafo, il Meme è già uscito in modo super veloce, in una forma di SocialFi compatibile con Web3. Friend.tech è stata la Dapp che ha sparato il primo colpo in questa ondata di applicazioni sociali, ma sfortunatamente ha fallito a causa di un design token affrettato. Pump.fun ha convalidato la fattibilità della pura piattaforma, senza alcun token, senza alcuna regola. La domanda e l'offerta di attenzione si uniscono, puoi pubblicare meme, fare streaming, emettere token, lasciare messaggi, scambiare, tutto è libero, Pump.fun addebita solo una commissione di servizio. Questo è fondamentalmente in linea con il modello di economia dell'attenzione dei social media di oggi come YouTube, Ins, solo che i soggetti di addebito sono diversi, mentre nel gioco Pump.fun è più Web3.
Il Clanker di Base è un campione, grazie all'ecosistema integrato realizzato dall'ecosistema stesso, Base ha la sua Dapp sociale come supporto, formando un ciclo interno completo. L'agente Meme è la forma 2.0 del Meme Coin, le persone sono sempre alla ricerca di novità, e Pump.fun si trova proprio al centro dell'attenzione, dal punto di vista delle tendenze, è solo una questione di tempo prima che le fantasie delle creature basate su silicio sostituiscano le battute volgari delle creature basate su carbonio.
Ho già menzionato Base innumerevoli volte, solo che il contenuto di ogni volta è diverso, dal punto di vista della timeline, Base non è mai stato un pioniere, ma è sempre un vincitore.
Sei, cos'altro può essere un agente intelligente?
Da un punto di vista pratico, gli agenti non possono essere decentralizzati per un lungo periodo di tempo in futuro; considerando la costruzione degli agenti nel tradizionale campo dell'AI, non è un semplice processo di ragionamento che può essere risolto decentralizzando e rendendo open-source, ha bisogno di accedere a vari API per accedere ai contenuti di Web2, i suoi costi operativi sono molto elevati, la progettazione della catena di pensiero e la collaborazione multi-agente dipendono ancora da un mediatore umano. Ci sarà un lungo periodo di transizione, fino a quando emergerà una forma di fusione appropriata, forse simile a UNI. Ma come nell'articolo precedente, continuo a credere che gli agenti avranno un grande impatto sul nostro settore, proprio come l'esistenza di Cex nel nostro settore, non corretta ma molto importante.
L'articolo (Panoramica sugli Agenti AI) pubblicato il mese scorso da Stanford & Microsoft descrive ampiamente l'applicazione degli agenti nel settore sanitario, nelle macchine intelligenti e nei mondi virtuali, e nell'appendice di questo articolo ci sono già molti casi di prova con GPT-4V come agente coinvolti nello sviluppo di giochi AAA di alto livello.
Non è necessario forzare troppo la velocità di integrazione con la decentralizzazione, spero invece che il primo puzzle che l'agente colmi sia la capacità e la velocità dal basso verso l'alto, abbiamo così tanti resti narrativi e un metaverso vuoto che ha bisogno di essere riempito, in una fase appropriata considereremo come farlo diventare il prossimo UNI.
Riferimenti
La catena di pensiero “emergente” dei grandi modelli, che tipo di capacità è? Autore: Brain Extreme Body
Comprendere in un articolo l'Agente, la prossima tappa dei grandi modelli. Autore: LinguaMind