Treinar modelos de linguagem para prever vários tokens ao mesmo tempo resulta em melhor eficiência da amostra, afirmam pesquisadores da Meta.

Modelos de linguagem grandes, como Llama e ChatGPT, geralmente são treinados para a previsão do próximo token, mas com essa nova abordagem é possível obter melhor desempenho.

O que é técnica de previsão de token único?

A técnica de previsão multitoken oferece uma vantagem significativa em alguns cenários com três vezes a velocidade das tarefas generativas, mas ainda não é uma solução única para todos os tipos de modelo. A técnica tem bastante espaço para melhorias e, para algumas aplicações de LLM, pode se tornar uma ferramenta robusta.

Para uma compreensão mais clara, pode-se dizer que o processo tradicional de treinamento LLM utiliza uma abordagem chamada “previsão do próximo token” e, dessa forma, um modelo prevê apenas o próximo token futuro em uma determinada sequência.

Em um processo automatizado, o token previsto é adicionado à entrada, e o processo é repetido várias vezes em toda a entrada de texto fornecida para que o modelo aprenda os padrões comuns e desenvolva a capacidade de produzir uma saída que consiste em texto lógico e consistente.

Há algumas desvantagens nessa técnica, pois, ao processar apenas o próximo token, o modelo se torna muito focado nos padrões locais no texto e ignora as previsões que só podem ser feitas com raciocínio.

Outro problema com essa técnica é que ela exige que grandes quantidades de conjuntos de dados sejam inseridos no modelo para atingir o fluxo normal de saída de linguagem que os humanos podem fazer com muito pouco texto.

A previsão de múltiplos tokens permite uma velocidade 3X

Fonte: Meta.

Na nova abordagem multi-token sugerida pela Meta, o LLM é instruído a prever múltiplos tokens de diferentes posições ao mesmo tempo no processo de treinamento. Os pesquisadores usaram uma arquitetura de predição simples para predição multi-token que não requer recursos extras como tempo e processamento de memória.

Os pesquisadores usaram a mesma arquitetura do Transformer que já é usada pela maioria dos LLMs, mas fizeram algumas alterações para acomodar a previsão de múltiplos tokens, aumentando suas cabeças de saída de uma para múltiplas e alocando uma para cada token.

Dessa forma, para tirar conclusões e fazer previsões, o modelo usa a mesma estratégia básica de previsão seguinte, mas ao utilizar múltiplas cabeças, ele pode acelerar o processo. O estudo de pesquisa diz,

“Embora seja gratuita e simples, a previsão de múltiplos tokens é uma modificação eficaz para treinar modelos de transformadores mais fortes e rápidos.”

Fonte: Meta.

Os pesquisadores descobriram durante o estudo que a técnica produziu resultados abaixo da média quando a usaram em modelos menores, mas os resultados se tornaram melhores do que a média quando aplicaram o mesmo processo a modelos maiores, e os resultados continuaram melhorando com o tamanho do modelo. Conforme o estudo escreve,

“O método é cada vez mais útil para tamanhos de modelos maiores e mantém seu apelo ao treinar para múltiplas épocas. Os ganhos são especialmente pronunciados em benchmarks generativos como codificação, onde nossos modelos consistentemente superam linhas de base fortes em vários pontos percentuais.”

Fonte: Meta.

Os pesquisadores também disseram que a técnica de previsão de múltiplos tokens também torna o modelo três vezes mais rápido na produção de resultados lógicos, o que é útil com o benefício de nenhum ou muito pouco custo extra.