La predicción de tokens múltiples aumenta tres veces la velocidad del modelo de IA, dice Meta

Cryptopolitan · 2024-05-07T05:13:07.000Z

Entrenar modelos de lenguaje para predecir múltiples tokens a la vez da como resultado una mejor eficiencia de la muestra, dicen los investigadores de Meta. Los modelos de lenguaje grandes como Llama y ChatGPT generalmente se entrenan para la predicción del siguiente token, pero con este nuevo enfoque se puede lograr un mejor rendimiento. ¿Qué es la técnica de predicción de un solo token? La técnica de predicción de tokens múltiples proporciona una ventaja significativa en algunos escenarios con tres veces la velocidad de las tareas generativas, pero aún no es una solución única para cada tipo de modelo. La técnica tiene bastante margen de mejora y, para algunas aplicaciones de LLM, puede convertirse en una herramienta sólida.

Trénink jazykových modelů pro predikci více tokenů najednou vede k lepší efektivitě vzorků, říkají výzkumníci z Meta.
Velké jazykové modely jako Llama a ChatGPT jsou obvykle trénovány pro predikci dalšího tokenu, ale s tímto novým přístupem lze dosáhnout lepšího výkonu.
Co je to technika predikce jednoho tokenu?
Technika predikce s více tokeny poskytuje v některých scénářích významnou výhodu s trojnásobnou rychlostí generativních úloh, ale stále to není univerzální řešení pro každý typ modelu. Tato technika má docela prostor pro zlepšení a pro některé aplikace LLM se může stát robustním nástrojem.
Pro jasnější pochopení lze říci, že tradiční proces školení LLM používá přístup nazývaný „predikce dalšího tokenu“, a tímto způsobem model předpovídá pouze další budoucí token v dané sekvenci.
V automatizovaném procesu se token, který předpověděl, přidá ke vstupu a proces se opakuje znovu a znovu přes celý poskytnutý textový vstup, takže se model naučí běžné vzorce a rozvine schopnost produkovat výstup sestávající z logického a konzistentního text.
Tato technika má určité nevýhody, protože zpracováním pouze dalšího tokenu se model příliš soustředí na místní vzory v textu a ignoruje předpovědi, které lze provést pouze s uvažováním.
Dalším problémem této techniky je, že vyžaduje, aby bylo do modelu vloženo obrovské množství datových sad, aby bylo dosaženo normálního toku jazykového výstupu, který lidé mohou dělat s velmi malým množstvím textu.
Predikce s více tokeny umožňuje 3x rychlost
 Zdroj: Meta.
V novém multi-tokenovém přístupu navrženém Meta je LLM instruováno předpovídat více tokenů z různých pozic současně v tréninkovém procesu. Výzkumníci použili jednoduchou architekturu predikce pro predikci s více tokeny, která nevyžaduje další zdroje, jako je zpracování času a paměti.
Výzkumníci použili stejnou architekturu Transformer, kterou již používá většina LLM, ale provedli určité změny, aby vyhověli predikci více tokenů zvýšením výstupních hlav z jednoho na více a přidělením jednoho každému tokenu.
Tímto způsobem model pro vyvozování závěrů a předpovědi používá stejnou základní strategii další predikce, ale použitím více hlav může proces urychlit. Výzkumná studie říká,
"Zatímco je bezplatná a jednoduchá, predikce s více tokeny je efektivní modifikací pro trénování silnějších a rychlejších modelů transformátorů."
 Zdroj: Meta.
Výzkumníci během studie zjistili, že tato technika přinesla podprůměrné výsledky, když ji použili na menších modelech, ale výsledky byly lepší než průměrné, když použili stejný proces na větší modely, a výsledky se stále zlepšovaly s velikostí modelu.  Jak píše studie,
„Metoda je stále užitečnější pro větší velikosti modelů a zachovává si svou přitažlivost při tréninku pro více epoch. Zisky jsou zvláště výrazné u generativních benchmarků, jako je kódování, kde naše modely trvale překonávají silné základní linie o několik procentních bodů.“
 Zdroj: Meta.
Výzkumníci také uvedli, že předpovědní technika s více tokeny také dělá model třikrát rychlejším při vytváření logických výsledků, což je užitečné s výhodou nulových nebo velmi malých dodatečných nákladů.

Prozkoumat více od tvůrce

Nejnovější zprávy