Addestrare modelli linguistici per prevedere più token contemporaneamente si traduce in una migliore efficienza del campione, affermano i ricercatori di Meta.

I modelli linguistici di grandi dimensioni come Llama e ChatGPT vengono solitamente addestrati per la previsione del token successivo, ma con questo nuovo approccio è possibile ottenere prestazioni migliori.

Cos'è la tecnica di previsione del token singolo?

La tecnica di previsione multi-token fornisce un vantaggio significativo in alcuni scenari con una velocità tre volte superiore alle attività generative, ma non è ancora una soluzione unica per ogni tipo di modello. La tecnica ha un certo margine di miglioramento e, per alcune applicazioni LLM, può diventare uno strumento affidabile.

Per una comprensione più chiara, si può dire che il processo tradizionale per la formazione LLM utilizza un approccio chiamato "previsione del token successivo" e in questo modo, un modello prevede solo il token futuro successivo in una data sequenza.

In un processo automatizzato, il token previsto viene aggiunto all'input e il processo viene ripetuto più e più volte sull'intero input di testo fornito, in modo che il modello apprenda gli schemi comuni e sviluppi la capacità di produrre un output costituito da testo logico e coerente.

Questa tecnica presenta alcuni svantaggi, poiché elaborando solo il token successivo, il modello si concentra troppo sui modelli locali nel testo e ignora le previsioni che possono essere fatte solo con il ragionamento.

Un altro problema di questa tecnica è che richiede l'immissione di enormi quantità di set di dati nel modello per raggiungere il normale flusso di output linguistico che gli esseri umani possono elaborare con pochissimo testo.

La previsione multi-token consente una velocità 3 volte superiore

Fonte: Meta.

Nel nuovo approccio multi-token suggerito da Meta, l'LLM è istruito a predire più token da posizioni diverse contemporaneamente nel processo di training. I ricercatori hanno utilizzato una semplice architettura di predizione per la predizione multi-token che non richiede risorse extra come tempo e elaborazione della memoria.

I ricercatori hanno utilizzato la stessa architettura Transformer già utilizzata dalla maggior parte degli LLM, ma hanno apportato alcune modifiche per supportare la previsione di più token, aumentando le teste di output da singole a multiple e assegnandone una a ciascun token.

In questo modo, per trarre conclusioni e fare previsioni, il modello usa la stessa strategia di base di previsione successiva, ma utilizzando più teste, può accelerare il processo. Lo studio di ricerca afferma,

"Sebbene gratuita e semplice, la previsione multi-token è una modifica efficace per addestrare modelli di trasformatori più forti e veloci."

Fonte: Meta.

I ricercatori hanno scoperto durante lo studio che la tecnica produceva risultati scadenti quando la utilizzavano su modelli più piccoli, ma i risultati diventavano migliori della media quando applicavano lo stesso processo a modelli più grandi, e i risultati continuavano a migliorare con le dimensioni del modello. Come scrive lo studio,

"Il metodo è sempre più utile per modelli di dimensioni maggiori e mantiene il suo fascino quando si allena per più epoche. I guadagni sono particolarmente pronunciati su benchmark generativi come la codifica, dove i nostri modelli superano costantemente le solide linee di base di diversi punti percentuali".

Fonte: Meta.

I ricercatori hanno inoltre affermato che la tecnica di previsione multi-token rende il modello tre volte più veloce nel produrre risultati logici, il che è utile con il vantaggio di non avere costi aggiuntivi o di averne pochissimi.