Multi Token Prediction Increases AI Model Speed Three Times, Says Meta

Cryptopolitan · 2024-05-07T05:13:07.000Z

Training language models to predict multiple tokens at once results in better sample efficiency, says researchers at Meta. Large language models like Llama and ChatGPT are usually trained for the next token prediction, but with this new approach, better performance can be achieved. What is single token prediction technique? The multi-token prediction technique provides a significant edge in some scenarios with three times the speed of generative tasks, but it still is not a one-size-fits-all solution for every type of model. The technique has quite some room for improvement, and for some LLM applications, it can become a robust tool. For a more clearer understanding, it can be said that the traditional process for LLM training uses an approach called “next-token prediction,” and in this way, a model predicts only the next one future token in a given sequence. In an automated process, the token it predicted is added to the input, and the process is repeated over and over again over the entire text input provided so that the model learns the common patterns and develops the ability to produce output consisting of logical and consistent text. There are some drawbacks to this technique, as by processing only the next token, the model becomes too focused on the local patterns in text and ignores the predictions that can only be made with reasoning. Another problem with this technique is that it requires huge amounts of datasets to be fed into the model to reach the normal flow of language output that humans can do with very little text. Multi token prediction enables 3X speed Source: Meta. In the new multi-token approach suggested by Meta, the LLM is instructed to predict multiple tokens from different positions at the same time in the training process. The researchers used a simple prediction architecture for multi-token prediction that does not require extra resources like time and memory processing. Researchers used the same Transformer architecture that is already used by most LLMs, but they did make some changes to accommodate multiple token prediction by increasing its output heads from single to multiple and allocating one to each token. In this way, for drawing conclusions and making predictions, the model uses the same basic next prediction strategy, but by utilizing multiple heads, it can speed up the process. The research study says, “While cost-free and simple, multi-token prediction is an effective modification to train stronger and faster transformer models.” Source: Meta. Researchers found during the study that the technique produced subpar results when they used it on smaller models, but the results became better than average when they applied the same process to larger models, and the results kept improving with the size of the model. As the study writes, “The method is increasingly useful for larger model sizes, and keeps its appeal when training for multiple epochs. Gains are especially pronounced on generative benchmarks like coding, where our models consistently outperform strong baselines by several percentage points.” Source: Meta. Researchers also said that the multi token prediction technique also makes the model three times faster at producing logical results, which is useful with the benefit of no or very little extra cost.

Обучение языковых моделей прогнозированию нескольких токенов одновременно приводит к повышению эффективности выборки, говорят исследователи из Meta.
Большие языковые модели, такие как Llama и ChatGPT, обычно обучаются для прогнозирования следующего токена, но с помощью этого нового подхода можно достичь большей производительности.
Что такое метод прогнозирования одного токена?
Метод прогнозирования с использованием нескольких токенов обеспечивает значительное преимущество в некоторых сценариях, поскольку в три раза превышает скорость генеративных задач, но он по-прежнему не является универсальным решением для каждого типа модели. Этот метод имеет значительные возможности для совершенствования, и для некоторых приложений LLM он может стать надежным инструментом.
Для более ясного понимания можно сказать, что традиционный процесс обучения LLM использует подход, называемый «предсказанием следующего токена», и таким образом модель прогнозирует только следующий будущий токен в заданной последовательности.
В автоматизированном процессе предсказанный токен добавляется к входным данным, и процесс повторяется снова и снова для всего предоставленного текстового ввода, так что модель изучает общие шаблоны и развивает способность выдавать выходные данные, состоящие из логических и последовательных текст.
У этого метода есть некоторые недостатки, поскольку при обработке только следующего токена модель слишком фокусируется на локальных шаблонах текста и игнорирует прогнозы, которые можно сделать только с помощью рассуждений.
Другая проблема этого метода заключается в том, что для достижения нормального потока языкового вывода, который люди могут выполнить с очень небольшим количеством текста, в модель требуется ввести огромное количество наборов данных.
Прогнозирование нескольких токенов обеспечивает трехкратную скорость
 Источник: Мета.
В новом подходе с несколькими токенами, предложенном Meta, LLM поручено прогнозировать несколько токенов с разных позиций одновременно в процессе обучения. Исследователи использовали простую архитектуру прогнозирования для прогнозирования с использованием нескольких токенов, которая не требует дополнительных ресурсов, таких как обработка времени и памяти.
Исследователи использовали ту же архитектуру Transformer, которая уже используется большинством LLM, но они внесли некоторые изменения для обеспечения прогнозирования нескольких токенов, увеличив выходные головки с одной до нескольких и назначив по одной каждому токену.
Таким образом, для вывода выводов и прогнозирования модель использует одну и ту же базовую стратегию следующего прогнозирования, но за счет использования нескольких головок она может ускорить процесс. В исследовании говорится:
«Несмотря на то, что прогнозирование с использованием нескольких токенов является бесплатным и простым, оно является эффективной модификацией для обучения более мощных и быстрых моделей преобразователей».
 Источник: Мета.
В ходе исследования исследователи обнаружили, что этот метод давал некачественные результаты, когда они использовали его на меньших моделях, но результаты становились лучше среднего, когда они применяли тот же процесс к более крупным моделям, и результаты продолжали улучшаться с увеличением размера модели. Как пишет исследование,
«Метод становится все более полезным для моделей большего размера и сохраняет свою привлекательность при обучении для нескольких эпох. Прирост особенно заметен в генеративных тестах, таких как программирование, где наши модели постоянно превосходят сильные базовые показатели на несколько процентных пунктов».
 Источник: Мета.
Исследователи также заявили, что метод прогнозирования с использованием нескольких токенов также позволяет модели в три раза быстрее выдавать логические результаты, что полезно с точки зрения отсутствия или очень небольших дополнительных затрат.

Другие публикации автора

Последние новости

Другие публикации автора

Последние новости

Популярные статьи