Entrenar modelos de lenguaje para predecir múltiples tokens a la vez da como resultado una mejor eficiencia de la muestra, dicen los investigadores de Meta.

Los modelos de lenguaje grandes como Llama y ChatGPT generalmente se entrenan para la predicción del siguiente token, pero con este nuevo enfoque se puede lograr un mejor rendimiento.

¿Qué es la técnica de predicción de un solo token?

La técnica de predicción de tokens múltiples proporciona una ventaja significativa en algunos escenarios con tres veces la velocidad de las tareas generativas, pero aún no es una solución única para cada tipo de modelo. La técnica tiene bastante margen de mejora y, para algunas aplicaciones de LLM, puede convertirse en una herramienta sólida.

Para una comprensión más clara, se puede decir que el proceso tradicional de capacitación LLM utiliza un enfoque llamado "predicción del siguiente token" y, de esta manera, un modelo predice solo el siguiente token futuro en una secuencia determinada.

En un proceso automatizado, el token que predijo se agrega a la entrada y el proceso se repite una y otra vez sobre toda la entrada de texto proporcionada para que el modelo aprenda los patrones comunes y desarrolle la capacidad de producir una salida que consista en datos lógicos y consistentes. texto.

Esta técnica tiene algunos inconvenientes, ya que al procesar solo el siguiente token, el modelo se centra demasiado en los patrones locales del texto e ignora las predicciones que sólo se pueden hacer con razonamiento.

Otro problema con esta técnica es que requiere que se introduzcan enormes cantidades de conjuntos de datos en el modelo para alcanzar el flujo normal de producción de lenguaje que los humanos pueden hacer con muy poco texto.

La predicción de tokens múltiples permite una velocidad 3X

Fuente: Meta.

En el nuevo enfoque de múltiples tokens sugerido por Meta, el LLM debe predecir múltiples tokens desde diferentes posiciones al mismo tiempo en el proceso de capacitación. Los investigadores utilizaron una arquitectura de predicción simple para la predicción de múltiples tokens que no requiere recursos adicionales como tiempo y procesamiento de memoria.

Los investigadores utilizaron la misma arquitectura Transformer que ya utilizan la mayoría de los LLM, pero hicieron algunos cambios para adaptarse a la predicción de múltiples tokens al aumentar sus cabezales de salida de uno a múltiple y asignar uno a cada token.

De esta manera, para sacar conclusiones y hacer predicciones, el modelo utiliza la misma estrategia básica de predicción siguiente, pero al utilizar varios cabezales, puede acelerar el proceso. El estudio de investigación dice,

"Si bien la predicción de múltiples tokens es sencilla y gratuita, es una modificación eficaz para entrenar modelos de transformadores más potentes y rápidos".

Fuente: Meta.

Los investigadores descubrieron durante el estudio que la técnica produjo resultados deficientes cuando la usaron en modelos más pequeños, pero los resultados fueron mejores que el promedio cuando aplicaron el mismo proceso a modelos más grandes, y los resultados siguieron mejorando con el tamaño del modelo.  Como escribe el estudio,

“El método es cada vez más útil para modelos de mayor tamaño y mantiene su atractivo cuando se entrena para múltiples épocas. Las ganancias son especialmente pronunciadas en puntos de referencia generativos como la codificación, donde nuestros modelos superan consistentemente las líneas de base sólidas en varios puntos porcentuales”.

Fuente: Meta.

Los investigadores también dijeron que la técnica de predicción de múltiples tokens también hace que el modelo produzca resultados lógicos tres veces más rápido, lo cual es útil con el beneficio de un costo adicional nulo o muy pequeño.