O processo de processamento de linguagem baseado em “tokens” do modelo de IA de nova geração está revelando muitas limitações, representando uma grande barreira para o desenvolvimento deste campo.

Os modelos generativos de IA, desde o compacto Gemma até o avançado GPT-4, são baseados na arquitetura do transformador. Em vez de processar texto bruto como os humanos, os transformadores operam codificando dados em unidades menores chamadas “tokens”. Os tokens podem ser palavras, sílabas ou até caracteres individuais. Este processo, denominado tokenização, permite que a IA receba informações de forma mais eficiente, mas ao mesmo tempo cria muitas limitações.

Um dos principais desafios é a falta de consistência na forma como os tokens são tratados. Por exemplo, o modelo pode analisar “era uma vez” em “uma vez”, “sobre”, “uma”, “tempo”, enquanto “uma vez” (com um espaço no final) é interpretado como “uma vez” , “sobre”, “a”, ” “. Isso torna difícil para o modelo compreender o contexto e o verdadeiro significado da frase, levando a resultados imprecisos.

Além disso, distinguir entre letras maiúsculas e minúsculas também faz uma diferença significativa. Em relação ao modelo, “Olá” e “OLÁ” podem ser entendidos como dois conceitos completamente diferentes. É esta ambiguidade na forma como os tokens são codificados que faz com que muitos modelos de IA falhem em testes simples de capitalização.

De acordo com Sheridan Feucht, estudante de doutorado na Northeastern University, não existe um “token perfeito”. A própria linguagem contém inerentemente muitos elementos complexos, e determinar qual é a unidade semântica ideal para codificação ainda é um problema difícil.

O problema fica ainda pior quando são considerados outros idiomas além do inglês. Muitos métodos de codificação atuais usam espaços como separadores de palavras, mas isso não é adequado para idiomas como chinês, japonês, coreano, etc. De acordo com um estudo de 2023 da Universidade de Oxford, a codificação de linguagem ineficiente pode fazer com que um modelo de IA demore duas vezes tanto tempo para processar uma tarefa em comparação com o inglês.

Os usuários que usam essas linguagens “ineficientes em tokens” também provavelmente enfrentarão pior desempenho de IA e custos de uso mais elevados, já que muitos provedores cobram com base no número de tokens.

Uma pesquisa realizada no mesmo ano de 2023 por Yennie Jun, pesquisadora de IA do Google DeepMind, também mostrou que alguns idiomas precisam de 10 vezes mais tokens do que o inglês para transmitir o mesmo significado. Isto mostra claramente a desigualdade linguística no campo da IA.

Além disso, a tokenização também é considerada a razão pela qual os modelos atuais de IA têm dificuldade em processar matemática. Sem compreender verdadeiramente os números, o tokenizer pode considerar “380” como um token, mas representar “381” como um par (“38” e “1”), destruindo a relação entre os dígitos e confundindo o transformador.

A codificação inconsistente de números torna difícil para o modelo compreender as relações entre dígitos em equações e fórmulas matemáticas.

Veremos que muitos comportamentos e problemas estranhos de LLMs na verdade remontam à tokenização. Passaremos por uma série dessas questões, discutiremos por que a tokenização é falha e por que alguém por aí idealmente encontra uma maneira de excluir esse estágio completamente. pic.twitter.com/5haV7FvbBx

— Andrej Karpathy (@karpathy) 20 de fevereiro de 2024

Apesar dos muitos desafios, os cientistas estão pesquisando ativamente possíveis soluções. Modelos de espaço de estado em “nível de byte”, como o MambaByte, que é capaz de processar diretamente dados brutos na forma de bytes, apresentam excelente potencial para lidar com “ruído” linguístico e análise de texto eficiente. No entanto, o MambaByte e modelos similares ainda estão nos estágios iniciais de pesquisa.

De acordo com Sheridan Feucht, “eliminar completamente a tokenização é um caminho possível, mas atualmente é computacionalmente impossível para transformadores”.

O surgimento de novas arquiteturas de modelos pode ser a chave para um avanço no problema da tokenização. No futuro imediato, os investigadores continuam a procurar soluções para otimizar a tokenização para diferentes línguas, visando um futuro onde a IA possa compreender e processar a linguagem de forma natural e eficaz.