Das Trainieren von Sprachmodellen zur Vorhersage mehrerer Token auf einmal führt zu einer besseren Stichprobeneffizienz, sagen Forscher bei Meta.

Große Sprachmodelle wie Llama und ChatGPT werden normalerweise für die Vorhersage des nächsten Tokens trainiert, aber mit diesem neuen Ansatz kann eine bessere Leistung erzielt werden.

Was ist die Einzeltoken-Vorhersagetechnik?

Die Multi-Token-Vorhersagetechnik bietet in einigen Szenarien einen erheblichen Vorteil, da sie dreimal schneller ist als generative Aufgaben, aber sie ist immer noch keine Universallösung für alle Modelltypen. Die Technik bietet noch viel Raum für Verbesserungen und kann für einige LLM-Anwendungen zu einem robusten Werkzeug werden.

Zum besseren Verständnis kann man sagen, dass der traditionelle Prozess des LLM-Trainings einen Ansatz namens „Next-Token-Vorhersage“ verwendet und auf diese Weise ein Modell nur das nächste zukünftige Token in einer gegebenen Sequenz vorhersagt.

In einem automatisierten Prozess wird das vorhergesagte Token zur Eingabe hinzugefügt und der Prozess wird für die gesamte bereitgestellte Texteingabe immer wieder wiederholt, sodass das Modell die gemeinsamen Muster lernt und die Fähigkeit entwickelt, eine Ausgabe zu erzeugen, die aus logischem und konsistentem Text besteht.

Diese Technik weist einige Nachteile auf: Durch die Verarbeitung nur des nächsten Tokens konzentriert sich das Modell zu sehr auf die lokalen Muster im Text und ignoriert die Vorhersagen, die nur durch logisches Denken getroffen werden können.

Ein weiteres Problem bei dieser Technik besteht darin, dass riesige Mengen von Datensätzen in das Modell eingespeist werden müssen, um den normalen Sprachausgabefluss zu erreichen, den Menschen mit sehr wenig Text erreichen können.

Multi-Token-Vorhersage ermöglicht 3-fache Geschwindigkeit

Quelle: Meta.

Bei dem neuen Multi-Token-Ansatz, den Meta vorgeschlagen hat, wird das LLM angewiesen, im Trainingsprozess mehrere Token aus verschiedenen Positionen gleichzeitig vorherzusagen. Die Forscher verwendeten eine einfache Vorhersagearchitektur für die Multi-Token-Vorhersage, die keine zusätzlichen Ressourcen wie Zeit und Speicherverarbeitung erfordert.

Die Forscher verwendeten die gleiche Transformer-Architektur, die bereits von den meisten LLMs verwendet wird, nahmen jedoch einige Änderungen vor, um die Vorhersage mehrerer Token zu ermöglichen, indem sie die Ausgabeköpfe von einem auf mehrere erhöhten und jedem Token einen zuwiesen.

Auf diese Weise verwendet das Modell zum Ziehen von Schlussfolgerungen und Treffen von Vorhersagen dieselbe grundlegende nächste Vorhersagestrategie, kann den Prozess jedoch durch die Verwendung mehrerer Köpfe beschleunigen. In der Forschungsstudie heißt es:

„Die Multi-Token-Vorhersage ist kostenlos und einfach, aber eine effektive Modifikation, um stärkere und schnellere Transformer-Modelle zu trainieren.“

Quelle: Meta.

Während der Studie stellten die Forscher fest, dass die Technik unterdurchschnittliche Ergebnisse lieferte, wenn sie sie bei kleineren Modellen anwandten. Bei der Anwendung des gleichen Verfahrens auf größere Modelle wurden die Ergebnisse jedoch überdurchschnittlich gut und die Ergebnisse verbesserten sich mit zunehmender Größe des Modells weiter.  In der Studie heißt es:

„Die Methode wird bei größeren Modellgrößen immer nützlicher und bleibt auch beim Training über mehrere Epochen hinweg attraktiv. Die Zugewinne sind besonders bei generativen Benchmarks wie der Codierung deutlich, wo unsere Modelle starke Baselines konstant um mehrere Prozentpunkte übertreffen.“

Quelle: Meta.

Die Forscher sagten außerdem, dass die Multi-Token-Vorhersagetechnik das Modell auch dreimal schneller bei der Erzeugung logischer Ergebnisse mache, was nützlich sei und den Vorteil habe, dass keine oder nur sehr geringe Zusatzkosten anfallen.