Meta 稱多標記預測可將 AI 模型速度提高三倍

Cryptopolitan · 2024-05-07T05:13:07.000Z

Meta 的研究人員表示，訓練語言模型同時預測多個標記可以提高樣本效率。大型語言模型（例如 Llama 和 ChatGPT）通常針對下一個標記預測進行訓練，但採用這種新方法可以獲得更好的性能。什麼是單個標記預測技術？多標記預測技術在某些情況下具有顯著優勢，速度是生成任務的三倍，但它仍然不是適用於所有類型模型的萬能解決方案。該技術還有很大的改進空間，對於某些 LLM 應用程序來說，它可以成爲一種強大的工具。

Навчання мовних моделей прогнозуванню кількох токенів одночасно призводить до кращої ефективності вибірки, кажуть дослідники з Meta.
Великі мовні моделі, такі як Llama та ChatGPT, зазвичай навчаються для прогнозування наступного токена, але за допомогою цього нового підходу можна досягти кращої продуктивності.
Що таке техніка прогнозування одного токена?
Техніка передбачення з кількома маркерами забезпечує значну перевагу в деяких сценаріях завдяки втричі швидшій швидкості генеративних завдань, але це все одно не є універсальним рішенням для кожного типу моделі. Ця техніка має багато можливостей для вдосконалення, і для деяких програм LLM вона може стати надійним інструментом.
Для більш чіткого розуміння можна сказати, що традиційний процес навчання LLM використовує підхід під назвою «прогнозування наступного токена», і таким чином модель передбачає лише один наступний майбутній токен у заданій послідовності.
У автоматизованому процесі передбачений нею маркер додається до вхідних даних, і процес повторюється знову і знову протягом усього наданого введення тексту, щоб модель вивчала загальні шаблони та розвивала здатність створювати логічні та послідовні результати. текст.
У цієї методики є деякі недоліки, оскільки, обробляючи лише наступний токен, модель стає надто зосередженою на локальних шаблонах у тексті та ігнорує передбачення, які можна зробити лише за допомогою аргументації.
Ще одна проблема з цією технікою полягає в тому, що вона вимагає введення в модель величезної кількості наборів даних, щоб отримати звичайний потік мовного виведення, який люди можуть зробити з дуже невеликою кількістю тексту.
Прогнозування кількох токенів забезпечує 3-кратну швидкість
 Джерело: Meta.
У новому підході з кількома токенами, запропонованому Meta, LLM отримує вказівку прогнозувати кілька токенів з різних позицій одночасно в процесі навчання. Дослідники використовували просту архітектуру прогнозування для прогнозування з кількома маркерами, яке не вимагає додаткових ресурсів, таких як час і обробка пам’яті.
Дослідники використовували ту саму архітектуру Transformer, яка вже використовується більшістю LLM, але вони внесли деякі зміни, щоб пристосувати передбачення кількох токенів, збільшивши вихідні головки з одного до кількох і призначивши по одному для кожного токена.
Таким чином, для висновків і передбачень модель використовує ту саму базову стратегію наступного прогнозування, але, використовуючи кілька головок, вона може прискорити процес. Дослідження говорить,
«Хоча безкоштовний і простий, багатотокенний прогноз є ефективною модифікацією для навчання сильніших і швидших моделей трансформаторів».
 Джерело: Meta.
Дослідники виявили під час дослідження, що ця методика дала невідповідні результати, коли вони використовували її на менших моделях, але результати стали кращими за середні, коли вони застосували той самий процес до більших моделей, і результати постійно покращувалися разом із розміром моделі. Як пише дослідження,
«Метод стає все більш корисним для більших розмірів моделей і зберігає свою привабливість під час навчання для кількох епох. Прибуток особливо помітний у генеративних тестах, таких як кодування, де наші моделі стабільно перевершують сильні базові показники на кілька відсотків».
 Джерело: Meta.
Дослідники також повідомили, що техніка передбачення з кількома маркерами також робить модель у три рази швидшою для отримання логічних результатів, що є корисним за умови відсутності або дуже незначних додаткових витрат.

Перегляньте більше від автора

Останні новини

Перегляньте більше від автора

Останні новини

Популярні статті