Trénink jazykových modelů pro predikci více tokenů najednou vede k lepší efektivitě vzorků, říkají výzkumníci z Meta.

Velké jazykové modely jako Llama a ChatGPT jsou obvykle trénovány pro predikci dalšího tokenu, ale s tímto novým přístupem lze dosáhnout lepšího výkonu.

Co je to technika predikce jednoho tokenu?

Technika predikce s více tokeny poskytuje v některých scénářích významnou výhodu s trojnásobnou rychlostí generativních úloh, ale stále to není univerzální řešení pro každý typ modelu. Tato technika má docela prostor pro zlepšení a pro některé aplikace LLM se může stát robustním nástrojem.

Pro jasnější pochopení lze říci, že tradiční proces školení LLM používá přístup nazývaný „predikce dalšího tokenu“, a tímto způsobem model předpovídá pouze další budoucí token v dané sekvenci.

V automatizovaném procesu se token, který předpověděl, přidá ke vstupu a proces se opakuje znovu a znovu přes celý poskytnutý textový vstup, takže se model naučí běžné vzorce a rozvine schopnost produkovat výstup sestávající z logického a konzistentního text.

Tato technika má určité nevýhody, protože zpracováním pouze dalšího tokenu se model příliš soustředí na místní vzory v textu a ignoruje předpovědi, které lze provést pouze s uvažováním.

Dalším problémem této techniky je, že vyžaduje, aby bylo do modelu vloženo obrovské množství datových sad, aby bylo dosaženo normálního toku jazykového výstupu, který lidé mohou dělat s velmi malým množstvím textu.

Predikce s více tokeny umožňuje 3x rychlost

Zdroj: Meta.

V novém multi-tokenovém přístupu navrženém Meta je LLM instruováno předpovídat více tokenů z různých pozic současně v tréninkovém procesu. Výzkumníci použili jednoduchou architekturu predikce pro predikci s více tokeny, která nevyžaduje další zdroje, jako je zpracování času a paměti.

Výzkumníci použili stejnou architekturu Transformer, kterou již používá většina LLM, ale provedli určité změny, aby vyhověli predikci více tokenů zvýšením výstupních hlav z jednoho na více a přidělením jednoho každému tokenu.

Tímto způsobem model pro vyvozování závěrů a předpovědi používá stejnou základní strategii další predikce, ale použitím více hlav může proces urychlit. Výzkumná studie říká,

"Zatímco je bezplatná a jednoduchá, predikce s více tokeny je efektivní modifikací pro trénování silnějších a rychlejších modelů transformátorů."

Zdroj: Meta.

Výzkumníci během studie zjistili, že tato technika přinesla podprůměrné výsledky, když ji použili na menších modelech, ale výsledky byly lepší než průměrné, když použili stejný proces na větší modely, a výsledky se stále zlepšovaly s velikostí modelu.  Jak píše studie,

„Metoda je stále užitečnější pro větší velikosti modelů a zachovává si svou přitažlivost při tréninku pro více epoch. Zisky jsou zvláště výrazné u generativních benchmarků, jako je kódování, kde naše modely trvale překonávají silné základní linie o několik procentních bodů.“

Zdroj: Meta.

Výzkumníci také uvedli, že předpovědní technika s více tokeny také dělá model třikrát rychlejším při vytváření logických výsledků, což je užitečné s výhodou nulových nebo velmi malých dodatečných nákladů.