Come Meta aiuta i modelli di intelligenza artificiale a "pensare" chiaramente prima di rispondere

Meta ha appena svelato un nuovo metodo di training AI che potrebbe migliorare il modo in cui le macchine elaborano le informazioni e rispondono alle query. Denominata Thought Preference Optimization (TPO), questa tecnica insegna ai modelli linguistici a impegnarsi in una deliberazione interna prima di sputare risposte. In altre parole: stanno pensando, in un certo senso.

Il TPO è fondamentalmente come dare all'IA un pulsante di pausa mentale, consentendole di rimuginare sulle cose invece di sparare la prima risposta che gli viene in mente. Il risultato? Risposte più nitide e sfumate che suonano meno come un robot e più come un umano premuroso.

Ciò significa che TPO potrebbe avvicinare Meta all'offerta di un'alternativa open source ai modelli proprietari come Strawberry di OpenAI (noto anche come o1), noto per le sue complesse capacità di risoluzione dei problemi.

L'approccio di Meta si differenzia dai metodi tradizionali come il prompting "a catena di pensiero", che costringe l'IA a mostrare il suo lavoro attraverso diverse iterazioni. Il TPO mantiene nascosti i calcoli mentali, con il modello che esegue tutto da solo in un'unica inquadratura.

Anche il processo di addestramento è diverso dal semplice dire al modello di "pensare passo dopo passo". Partendo da un modello di base che richiede di seguire le istruzioni, i ricercatori lo stimolano a generare pensieri interni prima di rispondere. Attraverso l'apprendimento iterativo per rinforzo, l'IA affina le sue capacità di pensiero, guidata da un modello di valutazione che valuta solo l'output finale, ovvero ciò che l'utente vede.

Immagine: Meta
Questo approccio non interventista consente all'IA di sviluppare modelli di pensiero propri e unici, portando potenzialmente a una risoluzione dei problemi più creativa e adattabile. È un passo avanti verso un'IA che non si limita a seguire le regole, ma ne comprende effettivamente il ragionamento.

L'innovazione di Meta trae ispirazione dalle scienze cognitive, imitando la tendenza umana a fermarsi e riflettere prima di affrontare questioni complesse. Se i modelli di intelligenza artificiale imparassero a dedicare più "tempo di calcolo" ai compiti più complessi, la prossima generazione di modelli open source potrebbe superare di gran lunga quelli attualmente in uso.

Il bello è che la tecnica TPO di Meta non ha bisogno di montagne di nuovi dati per fare la sua magia. Si basa su architetture di intelligenza artificiale esistenti, modificandole per simulare un processo di pensiero senza l'intervento umano. Questo potrebbe accelerare lo sviluppo di assistenti di intelligenza artificiale più intelligenti, chatbot e altri strumenti basati sul linguaggio, offrendo loro maggiore creatività nei loro approcci alla risoluzione dei problemi.

I ricercatori di Meta hanno testato il loro approccio rispetto a parametri di riferimento standard del settore. I modelli addestrati con TPO hanno messo in mostra le loro nuove capacità cognitive, superando le controparti non pensanti in compiti complessi.

Immagine: Meta
Più vicini a una Strawberry open source?
Meta ha compiuto interessanti progressi nell'ambito dell'intelligenza artificiale. Solo tre mesi fa, i suoi ricercatori hanno introdotto la "distillazione del Sistema 2", una tecnica che insegna ai modelli linguistici di grandi dimensioni (LLM) come risolvere compiti complessi senza dover eseguire passaggi superflui.

La distillazione del Sistema 2, ispirata ai processi cognitivi umani, insegna agli studenti di LLM a svolgere compiti complessi senza richiedere suggerimenti passo passo, che è generalmente considerato l'approccio di riferimento nell'ingegneria avanzata dei prompt. Perfezionando i modelli su risposte verificate alle tecniche di prompt del Sistema 2, i ricercatori hanno dimostrato che le IA possono interiorizzare capacità di ragionamento sofisticate, spesso eguagliando o superando le prestazioni dei metodi di ragionamento esplicito.

Il pensiero del Sistema 1 è veloce, intuitivo e automatico. È il processo mentale che utilizziamo per giudizi rapidi, riconoscimento di schemi e compiti familiari. In termini di intelligenza artificiale, questo si allinea al funzionamento tipico dei grandi modelli linguistici: generare rapidamente risposte basate su schemi appresi.

Il pensiero del Sistema 2, al contrario, è lento, ponderato e analitico. È il tipo di elaborazione che gli esseri umani impiegano per la risoluzione di problemi complessi, il ragionamento logico e la pianificazione. I ricercatori di intelligenza artificiale hanno lavorato per replicare questo processo nei modelli linguistici attraverso varie tecniche di sollecitazione che costringono l'IA a mostrare il suo funzionamento o ragionamento passo dopo passo.

L'ottimizzazione delle preferenze di pensiero di Meta e la ricerca correlata sulla distillazione del Sistema 2 rappresentano tentativi di colmare queste due modalità di pensiero nell'IA. L'obiettivo è dotare i modelli di IA della capacità di impegnarsi in ragionamenti approfonditi, in stile Sistema 2, senza sacrificare la velocità e l'efficienza dell'elaborazione del Sistema 1.

Questo approccio prevede l'addestramento dell'IA a internalizzare processi di ragionamento complessi. In questo modo, i modelli possono affrontare problemi complessi in modo più efficiente, imitando il modo in cui gli esseri umani passano dal pensiero cosciente e approfondito a un'elaborazione più automatica man mano che acquisiscono competenza in un compito.

Il tempismo non potrebbe essere migliore, dato che la ricerca di Meta arriva sulla scia di un mese tumultuoso nel mondo dell'intelligenza artificiale open source. Il tanto pubblicizzato modello Reflection 70B, pubblicizzato come un concentrato di ragionamento, si è rivelato un'illusione. Quello che era stato promesso come un modello con una catena di pensiero integrata prima del rilascio di OpenAI si è rivelato un modello incapace di mantenere le promesse, con alcuni utenti che hanno persino accusato i creatori di aver semplicemente utilizzato un wrapper su Claude di Anthropic.

Ora, i suoi sviluppatori si stanno puntando il dito l'uno contro l'altro in diverse analisi pubbliche, lasciando la comunità dell'intelligenza artificiale sotto shock. Matt Schumer, l'ideatore dell'idea, sta attualmente addestrando una nuova versione con il suo hardware e i suoi set di dati.

Se l'approccio di Meta si rivelasse vincente, potrebbe aprire la strada a un rivale open source del modello o1 di OpenAI. Un'alternativa open source potrebbe democratizzare l'accesso a questo tipo di pensiero avanzato nell'intelligenza artificiale.

A cura di Andrew Hayward