Обучение языковых моделей прогнозированию нескольких токенов одновременно приводит к повышению эффективности выборки, говорят исследователи из Meta.

Большие языковые модели, такие как Llama и ChatGPT, обычно обучаются для прогнозирования следующего токена, но с помощью этого нового подхода можно достичь большей производительности.

Что такое метод прогнозирования одного токена?

Метод прогнозирования с использованием нескольких токенов обеспечивает значительное преимущество в некоторых сценариях, поскольку в три раза превышает скорость генеративных задач, но он по-прежнему не является универсальным решением для каждого типа модели. Этот метод имеет значительные возможности для совершенствования, и для некоторых приложений LLM он может стать надежным инструментом.

Для более ясного понимания можно сказать, что традиционный процесс обучения LLM использует подход, называемый «предсказанием следующего токена», и таким образом модель прогнозирует только следующий будущий токен в заданной последовательности.

В автоматизированном процессе предсказанный токен добавляется к входным данным, и процесс повторяется снова и снова для всего предоставленного текстового ввода, так что модель изучает общие шаблоны и развивает способность выдавать выходные данные, состоящие из логических и последовательных текст.

У этого метода есть некоторые недостатки, поскольку при обработке только следующего токена модель слишком фокусируется на локальных шаблонах текста и игнорирует прогнозы, которые можно сделать только с помощью рассуждений.

Другая проблема этого метода заключается в том, что для достижения нормального потока языкового вывода, который люди могут выполнить с очень небольшим количеством текста, в модель требуется ввести огромное количество наборов данных.

Прогнозирование нескольких токенов обеспечивает трехкратную скорость

Источник: Мета.

В новом подходе с несколькими токенами, предложенном Meta, LLM поручено прогнозировать несколько токенов с разных позиций одновременно в процессе обучения. Исследователи использовали простую архитектуру прогнозирования для прогнозирования с использованием нескольких токенов, которая не требует дополнительных ресурсов, таких как обработка времени и памяти.

Исследователи использовали ту же архитектуру Transformer, которая уже используется большинством LLM, но они внесли некоторые изменения для обеспечения прогнозирования нескольких токенов, увеличив выходные головки с одной до нескольких и назначив по одной каждому токену.

Таким образом, для вывода выводов и прогнозирования модель использует одну и ту же базовую стратегию следующего прогнозирования, но за счет использования нескольких головок она может ускорить процесс. В исследовании говорится:

«Несмотря на то, что прогнозирование с использованием нескольких токенов является бесплатным и простым, оно является эффективной модификацией для обучения более мощных и быстрых моделей преобразователей».

Источник: Мета.

В ходе исследования исследователи обнаружили, что этот метод давал некачественные результаты, когда они использовали его на меньших моделях, но результаты становились лучше среднего, когда они применяли тот же процесс к более крупным моделям, и результаты продолжали улучшаться с увеличением размера модели. Как пишет исследование,

«Метод становится все более полезным для моделей большего размера и сохраняет свою привлекательность при обучении для нескольких эпох. Прирост особенно заметен в генеративных тестах, таких как программирование, где наши модели постоянно превосходят сильные базовые показатели на несколько процентных пунктов».

Источник: Мета.

Исследователи также заявили, что метод прогнозирования с использованием нескольких токенов также позволяет модели в три раза быстрее выдавать логические результаты, что полезно с точки зрения отсутствия или очень небольших дополнительных затрат.