Autore: YBB Capital Researcher Zeke

Un, iniziato dalla novità e dall'attrazione dell'attenzione

Nell'ultimo anno, a causa dell'interruzione della narrazione a livello applicativo, non in grado di tenere il passo con la velocità dell'esplosione delle infrastrutture, il campo della crittografia è gradualmente diventato un gioco per la conquista delle risorse di attenzione. Da Silly Dragon a Goat, da Pump.fun a Clanker, il capriccio dell'attenzione ha portato a una continua competizione in questo scontro. Partendo dai metodi più scontati di attrazione e monetizzazione, siamo rapidamente passati a modelli di piattaforme unificate tra domanda e offerta di attenzione, fino a quando i biocompatti siliconici sono diventati nuovi fornitori di contenuti. Tra le varie forme di Meme Coin, è finalmente emersa un'esistenza che può raggiungere un consenso tra retail e VC: l'agente AI.

L'attenzione è in ultima analisi un gioco a somma zero, ma la speculazione può effettivamente promuovere la crescita selvaggia delle cose. Nel nostro articolo su UNI abbiamo rivisitato l'inizio del precedente periodo d'oro della blockchain; la rapida crescita di DeFi è stata originata dall'era del mining LP inaugurata da Compound Finance, dove il modo più primordiale di competere on-chain era entrare ed uscire da pool minerari con APY che andavano da migliaia a decine di migliaia. Anche se il risultato finale è stato il crollo di vari pool minerari. Tuttavia, il folle afflusso di minatori d'oro ha effettivamente lasciato una liquidità senza precedenti nella blockchain, e DeFi è infine uscita dalla pura speculazione per formare un percorso maturo, soddisfacendo le esigenze finanziarie degli utenti in vari aspetti come pagamenti, transazioni, arbitraggio e staking. E al momento, l'agente AI sta anche attraversando questa fase selvaggia; stiamo esplorando come Crypto può meglio integrare l'AI e, infine, promuovere l'ascesa di nuovi livelli applicativi.

Due, come può l'agente agire autonomamente

Nell'articolo precedente abbiamo brevemente introdotto l'origine dell'AI Meme: Truth Terminal, e le prospettive per il futuro degli agenti AI. Questo articolo si concentra prima di tutto sull'agente AI stesso.

Iniziamo definendo l'agente AI: l'agente è un termine relativamente antico ma indefinito nel campo dell'IA, che sottolinea principalmente l'Autonomia, ovvero qualsiasi AI in grado di percepire l'ambiente e rispondere può essere chiamata agente. Nella definizione odierna, l'agente AI è più vicino all'agente, cioè impostare un sistema che imita le decisioni umane per il grande modello. Questa serie di sistemi è vista nel mondo accademico come il modo più promettente per raggiungere l'AGI (intelligenza artificiale generale).

Nelle prime versioni di GPT, eravamo chiaramente in grado di percepire che i grandi modelli erano simili agli esseri umani, ma nel rispondere a molte domande complesse, i grandi modelli erano in grado di fornire solo risposte vaghe. La ragione principale è che i grandi modelli di quel tempo si basavano sulla probabilità piuttosto che sulla causalità, e in secondo luogo, mancavano delle capacità umane di utilizzare strumenti, memoria, pianificazione, ecc., mentre l'agente AI può colmare queste lacune. Quindi, per riassumere in una formula, l'agente AI (intelligente) = LLM (grande modello) + Pianificazione + Memoria + Strumenti.

I grandi modelli basati su prompt sono più simili a una persona statica, prendono vita solo quando vengono interrogati, mentre l'obiettivo dell'agente è essere una persona più reale. Attualmente, gli agenti nel settore sono principalmente modelli fine-tuning basati sulle versioni Llama 70b o 405b open-source di Meta (con parametri diversi), dotati di capacità di memoria e uso di strumenti API; in altri aspetti, potrebbero aver bisogno dell'aiuto o dell'input umano (inclusa l'interazione e la collaborazione con altri agenti). Quindi, possiamo vedere che gli agenti principali nel settore sono ancora presenti come KOL all'interno delle reti sociali. Per rendere l'agente più simile a un essere umano, è necessario integrare le capacità di pianificazione e azione, e la catena di pensiero come sottocomponente della pianificazione è particolarmente cruciale.

Tre, catena di pensiero (Chain of Thought, CoT)

Il concetto di catena di pensiero (Chain of Thought, CoT) è emerso per la prima volta nel 2022 nel documento pubblicato da Google (Chain-of-Thought Prompting Elicits Reasoning in Large Language Models), che sottolinea come migliorare la capacità di ragionamento del modello generando una serie di passi intermedi per aiutare il modello a comprendere e risolvere problemi complessi.

Un tipico prompt CoT contiene tre parti: descrizione del compito con istruzioni chiare, basi logiche che supportano la risoluzione del compito, esempi di teorie o principi di base, e soluzioni specifiche. Mostrare questa struttura organizzata aiuta il modello a comprendere i requisiti del compito, avvicinandosi gradualmente alla risposta attraverso il ragionamento logico, migliorando così l'efficienza e l'accuratezza nella risoluzione dei problemi. CoT è particolarmente adatto per compiti che richiedono un'analisi approfondita e un ragionamento a più passaggi, come la risoluzione di problemi matematici, la scrittura di rapporti di progetto, ecc. In compiti semplici, CoT potrebbe non portare vantaggi evidenti, ma in compiti complessi, può migliorare significativamente le prestazioni del modello, riducendo il tasso di errore attraverso strategie di risoluzione passo-passo e migliorando la qualità del completamento del compito.

Nella costruzione dell'agente AI, CoT ha svolto un ruolo chiave; l'agente AI deve comprendere le informazioni ricevute e prendere decisioni ragionevoli in base a queste. CoT, fornendo un modo di pensare ordinato, aiuta l'agente a elaborare e analizzare efficacemente le informazioni in ingresso, trasformando i risultati dell'analisi in linee guida specifiche per l'azione. Questo metodo non solo aumenta l'affidabilità e l'efficienza delle decisioni dell'agente, ma migliora anche la trasparenza del processo decisionale, rendendo il comportamento dell'agente più prevedibile e tracciabile. CoT, scomponendo i compiti in più piccoli passaggi, aiuta l'agente a considerare attentamente ogni punto decisionale, riducendo le decisioni errate causate da sovraccarico informativo. CoT rende il processo decisionale dell'agente più trasparente, facilitando la comprensione delle basi delle decisioni da parte degli utenti. Nell'interazione con l'ambiente, CoT consente all'agente di apprendere continuamente nuove informazioni e adattare le strategie comportamentali.

CoT, come strategia efficace, non solo migliora la capacità di ragionamento dei grandi modelli di linguaggio, ma gioca anche un ruolo importante nella costruzione di agenti AI più intelligenti e affidabili. Sfruttando CoT, i ricercatori e gli sviluppatori sono in grado di creare sistemi intelligenti più adattabili a ambienti complessi e con un alto grado di autonomia. CoT ha dimostrato le sue uniche vantaggi nelle applicazioni pratiche, specialmente nella gestione di compiti complessi, scomponendo i compiti in una serie di piccoli passaggi, migliorando non solo l'accuratezza nella soluzione dei compiti, ma anche la comprensibilità e controllabilità del modello. Questo approccio di risoluzione passo-passo può ridurre drasticamente la possibilità di decisioni errate a causa di informazioni eccessive o troppo complesse quando si affrontano compiti complessi. Inoltre, questo metodo migliora la tracciabilità e la verificabilità dell'intera soluzione.

La funzione principale di CoT è combinare pianificazione, azione e osservazione per colmare il divario tra ragionamento e azione. Questo modello di pensiero consente all'agente AI di formulare strategie efficaci quando prevede possibili anomalie, oltre ad accumulare nuove informazioni mentre interagisce con l'ambiente esterno, verificando le previsioni stabilite in precedenza e fornendo nuove basi per il ragionamento. CoT è come un potente motore di precisione e stabilità che aiuta l'agente AI a mantenere un'elevata efficienza operativa in ambienti complessi.

Quattro, la giusta pseudo-esigenza

In quali aspetti la crittografia dovrebbe combinarsi con la stack tecnologica dell'AI? Nell'articolo dell'anno scorso, ho ritenuto che la decentralizzazione della potenza di calcolo e dei dati fosse un passo chiave per aiutare piccole imprese e sviluppatori individuali a risparmiare costi, mentre quest'anno, nel settore Crypto x AI organizzato da Coinbase, abbiamo visto una suddivisione più dettagliata:

(1) Livello di calcolo (riferito a reti focalizzate sull'offerta di risorse GPU per sviluppatori AI);

(2) Livello dati (riferito a reti che supportano l'accesso decentralizzato, la composizione e la verifica dei dati AI);

(3) Livello middleware (riferito a piattaforme o reti che supportano lo sviluppo, il dispiegamento e l'hosting di modelli o agenti AI);

(4) Livello applicativo (riferito a prodotti orientati agli utenti che utilizzano meccanismi AI on-chain, sia B2B che B2C).

In questi quattro strati, ogni livello ha una grande visione, il cui obiettivo è riassumere la lotta contro il dominio dei giganti della Silicon Valley nell'era successiva di Internet. Come ho detto l'anno scorso, dobbiamo davvero accettare che i giganti della Silicon Valley controllino esclusivamente la potenza di calcolo e i dati? Nei modelli grandi e chiusi monopolizzati da loro, l'interno è un black box. La scienza, come la religione più venerata dell'umanità oggi, farà sì che ogni frase che i grandi modelli risponderanno in futuro sarà vista come verità da una grande parte delle persone, ma come possiamo verificare questa verità? Secondo il piano dei giganti della Silicon Valley, i poteri che alla fine avranno gli agenti saranno inimmaginabili, come avere il potere di pagamento del tuo portafoglio, il diritto di utilizzare il terminale, come possiamo garantire che le persone non abbiano cattive intenzioni?

La decentralizzazione è l'unica risposta, ma a volte dobbiamo considerare ragionevolmente quanti siano i pagatori di queste grandiose visioni. In passato, potevamo compensare gli errori derivanti dall'idealizzazione attraverso i token, senza preoccuparci del ciclo commerciale. Ma la situazione attuale è molto grave; Crypto x AI deve integrare la realtà nella progettazione, ad esempio come bilanciare i due lati della potenza di calcolo in condizioni di perdita di prestazioni e instabilità? Per realizzare la competitività del cloud centralizzato. Quanti utenti reali avrà effettivamente il livello di dati? Come verificare la veridicità e l'efficacia dei dati forniti, e quali clienti hanno bisogno di questi dati? Gli altri due strati sono analoghi; in questo era non abbiamo bisogno di così tante pseudo-esigenze apparentemente corrette.

Cinque, il Meme ha creato SocialFi

Come ho detto nel primo paragrafo, il Meme è uscito a velocità super veloce, in una forma di SocialFi conforme al Web3. Friend.tech è stata la prima Dapp a dare il via a questo ciclo di applicazioni sociali, ma sfortunatamente ha fallito a causa di un design di token affrettato. Pump.fun ha invece dimostrato la fattibilità di una piattaforma puramente piatta, senza alcun token, senza alcuna regola. La domanda di attenzione è unita all'offerta, puoi condividere meme, fare dirette, emettere token, commentare, e commerciare, tutto è libero, Pump.fun addebita solo una commissione per il servizio. Questo è fondamentalmente in linea con il modello di economia dell'attenzione dei social media di oggi come YouTube, Ins, solo che la commissione è diversa, mentre Pump.fun è più Web3 nel suo approccio.

Il Clanker di Base è il culmine, grazie all'integrazione ecologica gestita personalmente, Base ha la sua Dapp sociale come supporto, formando un ciclo interno completo. L'agente Meme è la forma 2.0 di Meme Coin, le persone sono sempre attratte dal nuovo, e Pump.fun si trova ora nel bel mezzo della tempesta, dal punto di vista delle tendenze, la fantasia dei biocompatti siliconici che sostituiscono i biocompatti a base di carbonio è solo una questione di tempo.

Ho già menzionato incessantemente Base, solo che ogni volta il contenuto menzionato è diverso. Sulla linea temporale, Base non è mai stato un pioniere, ma è sempre un vincitore.

Sei, cos'altro può essere un agente?

Da un punto di vista pragmatista, è improbabile che gli agenti siano decentralizzati per un lungo periodo nel futuro. Guardando alla costruzione degli agenti nel tradizionale campo dell'IA, non è un semplice processo di ragionamento che può essere risolto con la decentralizzazione e l'open source; richiede l'accesso a varie API per accedere ai contenuti del Web2, e i costi operativi sono molto elevati. La progettazione della catena di pensiero e la collaborazione tra più agenti dipendono ancora da un umano come intermediario. Vivremo un lungo periodo di transizione fino a quando non emergerà una forma di fusione adeguata, forse simile a UNI. Ma come nel precedente articolo, continuo a ritenere che gli agenti avranno un grande impatto sul nostro settore, proprio come l'esistenza di Cex nel nostro campo, non corretta ma molto importante.

L'articolo inviato il mese scorso da Stanford e Microsoft (Panoramica degli agenti AI) descrive ampiamente le applicazioni degli agenti nei settori della sanità, delle macchine intelligenti e dei mondi virtuali, e nell'appendice di questo articolo ci sono già molti casi di sperimentazione di GPT-4V come agenti coinvolti nello sviluppo di giochi AAA di alto livello.

Non è necessario forzare troppo la velocità con cui si unisce alla decentralizzazione; preferirei che l'agente completasse prima il puzzle delle capacità e della velocità dal basso verso l'alto. Abbiamo così tante rovine narrative e un metaverso vuoto che necessita del suo riempimento; nella fase giusta considereremo come farlo diventare il prossimo UNI.

 

Fonti

La catena di pensiero che 'emerge' dai grandi modelli, che tipo di capacità è? Autore: Brain Extreme

Capire l'agente, la prossima fermata del grande modello Autore: LinguaMind