Навчання мовних моделей прогнозуванню кількох токенів одночасно призводить до кращої ефективності вибірки, кажуть дослідники з Meta.

Великі мовні моделі, такі як Llama та ChatGPT, зазвичай навчаються для прогнозування наступного токена, але за допомогою цього нового підходу можна досягти кращої продуктивності.

Що таке техніка прогнозування одного токена?

Техніка передбачення з кількома маркерами забезпечує значну перевагу в деяких сценаріях завдяки втричі швидшій швидкості генеративних завдань, але це все одно не є універсальним рішенням для кожного типу моделі. Ця техніка має багато можливостей для вдосконалення, і для деяких програм LLM вона може стати надійним інструментом.

Для більш чіткого розуміння можна сказати, що традиційний процес навчання LLM використовує підхід під назвою «прогнозування наступного токена», і таким чином модель передбачає лише один наступний майбутній токен у заданій послідовності.

У автоматизованому процесі передбачений нею маркер додається до вхідних даних, і процес повторюється знову і знову протягом усього наданого введення тексту, щоб модель вивчала загальні шаблони та розвивала здатність створювати логічні та послідовні результати. текст.

У цієї методики є деякі недоліки, оскільки, обробляючи лише наступний токен, модель стає надто зосередженою на локальних шаблонах у тексті та ігнорує передбачення, які можна зробити лише за допомогою аргументації.

Ще одна проблема з цією технікою полягає в тому, що вона вимагає введення в модель величезної кількості наборів даних, щоб отримати звичайний потік мовного виведення, який люди можуть зробити з дуже невеликою кількістю тексту.

Прогнозування кількох токенів забезпечує 3-кратну швидкість

Джерело: Meta.

У новому підході з кількома токенами, запропонованому Meta, LLM отримує вказівку прогнозувати кілька токенів з різних позицій одночасно в процесі навчання. Дослідники використовували просту архітектуру прогнозування для прогнозування з кількома маркерами, яке не вимагає додаткових ресурсів, таких як час і обробка пам’яті.

Дослідники використовували ту саму архітектуру Transformer, яка вже використовується більшістю LLM, але вони внесли деякі зміни, щоб пристосувати передбачення кількох токенів, збільшивши вихідні головки з одного до кількох і призначивши по одному для кожного токена.

Таким чином, для висновків і передбачень модель використовує ту саму базову стратегію наступного прогнозування, але, використовуючи кілька головок, вона може прискорити процес. Дослідження говорить,

«Хоча безкоштовний і простий, багатотокенний прогноз є ефективною модифікацією для навчання сильніших і швидших моделей трансформаторів».

Джерело: Meta.

Дослідники виявили під час дослідження, що ця методика дала невідповідні результати, коли вони використовували її на менших моделях, але результати стали кращими за середні, коли вони застосували той самий процес до більших моделей, і результати постійно покращувалися разом із розміром моделі. Як пише дослідження,

«Метод стає все більш корисним для більших розмірів моделей і зберігає свою привабливість під час навчання для кількох епох. Прибуток особливо помітний у генеративних тестах, таких як кодування, де наші моделі стабільно перевершують сильні базові показники на кілька відсотків».

Джерело: Meta.

Дослідники також повідомили, що техніка передбачення з кількома маркерами також робить модель у три рази швидшою для отримання логічних результатів, що є корисним за умови відсутності або дуже незначних додаткових витрат.