Naukowcy z Meta twierdzą, że uczenie modeli językowych przewidywania wielu tokenów jednocześnie skutkuje lepszą wydajnością próbek.

Duże modele językowe, takie jak Llama i ChatGPT, są zwykle szkolone pod kątem przewidywania następnego tokenu, ale dzięki temu nowemu podejściu można osiągnąć lepszą wydajność.

Na czym polega technika przewidywania pojedynczego tokenu?

Technika przewidywania wielotokenowego zapewnia znaczną przewagę w niektórych scenariuszach z trzykrotną szybkością zadań generatywnych, ale nadal nie jest rozwiązaniem uniwersalnym dla każdego typu modelu. Technika ta wymaga sporo ulepszeń, a w przypadku niektórych zastosowań LLM może stać się solidnym narzędziem.

Aby lepiej to zrozumieć, można powiedzieć, że tradycyjny proces szkolenia LLM wykorzystuje podejście zwane „przewidywaniem następnego tokena” i w ten sposób model przewiduje tylko następny przyszły token w danej sekwencji.

W procesie zautomatyzowanym przewidziany token jest dodawany do danych wejściowych, a następnie proces jest powtarzany wielokrotnie w odniesieniu do całego wprowadzonego tekstu, dzięki czemu model uczy się wspólnych wzorców i rozwija zdolność generowania danych wyjściowych składających się z logicznego i spójnego tekstu.

Technika ta ma pewne wady, ponieważ przetwarzając wyłącznie kolejny token, model skupia się zbyt mocno na lokalnych wzorcach w tekście i ignoruje przewidywania, które można uzyskać wyłącznie drogą wnioskowania.

Innym problemem tej techniki jest konieczność wprowadzenia do modelu ogromnej ilości zestawów danych, aby osiągnąć normalny przepływ danych wyjściowych, jaki ludzie są w stanie uzyskać przy użyciu niewielkiej ilości tekstu.

Wielokrotna predykcja tokenów umożliwia 3-krotną prędkość

Source: Meta.

W nowym podejściu multi-token, sugerowanym przez Meta, LLM ma za zadanie przewidywać wiele tokenów z różnych pozycji w tym samym czasie w procesie szkolenia. Naukowcy wykorzystali prostą architekturę predykcji do predykcji multi-token, która nie wymaga dodatkowych zasobów, takich jak przetwarzanie czasu i pamięci.

Naukowcy wykorzystali tę samą architekturę Transformer, która jest już wykorzystywana w większości programów LLM, ale wprowadzili pewne zmiany, aby umożliwić przewidywanie wielu tokenów, zwiększając liczbę głowic wyjściowych z jednej do wielu i przydzielając jedną do każdego tokena.

W ten sposób, aby wyciągnąć wnioski i dokonać przewidywań, model używa tej samej podstawowej strategii przewidywania następnego, ale wykorzystując wiele głowic, może przyspieszyć proces. Badanie mówi,

„Choć jest bezpłatna i prosta, predykcja wielotokenowa stanowi skuteczną modyfikację umożliwiającą szkolenie silniejszych i szybszych modeli transformatorów”.

Source: Meta.

Naukowcy odkryli podczas badania, że ​​technika ta dawała gorsze rezultaty, gdy stosowali ją na mniejszych modelach, ale wyniki stały się lepsze od przeciętnych, gdy zastosowali ten sam proces do większych modeli, a wyniki poprawiały się wraz ze wzrostem rozmiaru modelu. Jak napisano w badaniu,

„Metoda ta jest coraz bardziej użyteczna w przypadku większych rozmiarów modeli i zachowuje swoją atrakcyjność podczas trenowania przez wiele epok. Zyski są szczególnie widoczne w przypadku generatywnych testów porównawczych, takich jak kodowanie, gdzie nasze modele stale przewyższają silne linie bazowe o kilka punktów procentowych”.

Source: Meta.

Naukowcy stwierdzili również, że technika przewidywania wielu tokenów sprawia, że ​​model ten trzykrotnie szybciej generuje logiczne wyniki, co jest przydatne przy braku lub bardzo niewielkim nakładzie dodatkowych kosztów.