Meta の研究者によると、言語モデルをトレーニングして一度に複数のトークンを予測すると、サンプル効率が向上するとのことです。

Llama や ChatGPT のような大規模な言語モデルは通常、次のトークンの予測のためにトレーニングされますが、この新しいアプローチにより、より優れたパフォーマンスを実現できます。

シングルトークン予測技術とは何ですか?

マルチトークン予測技術は、生成タスクの 3 倍の速度で、いくつかのシナリオで大きな利点を提供しますが、それでもすべてのタイプのモデルに当てはまる万能のソリューションではありません。この技術には改善の余地がかなりあり、一部の LLM アプリケーションでは堅牢なツールになる可能性があります。

より明確に理解するために、LLM トレーニングの従来のプロセスでは、「次のトークン予測」と呼ばれるアプローチが使用され、この方法では、モデルは特定のシーケンス内の次の 1 つの将来のトークンのみを予測すると言えます。

自動化されたプロセスでは、予測されたトークンが入力に追加され、提供されたテキスト入力全体に対してプロセスが何度も繰り返されるため、モデルは共通パターンを学習し、論理的で一貫性のあるテキストで構成される出力を生成する能力を開発します。

この手法にはいくつかの欠点があり、次のトークンのみを処理すると、モデルはテキスト内のローカル パターンに重点を置きすぎて、推論によってのみ実行できる予測を無視します。

この手法のもう 1 つの問題は、人間がごくわずかなテキストで実行できる通常の言語出力フローに到達するには、膨大な量のデータセットをモデルに取り込む必要があることです。

マルチトークン予測により3倍の速度を実現

出典: メタ。

Meta が提案した新しいマルチトークン アプローチでは、LLM はトレーニング プロセスで同時に異なる位置から複数のトークンを予測するように指示されます。研究者は、時間やメモリ処理などの余分なリソースを必要としない、シンプルな予測アーキテクチャをマルチトークン予測に使用しました。

研究者は、ほとんどの LLM ですでに使用されているのと同じ Transformer アーキテクチャを使用しましたが、出力ヘッドを 1 つから複数に増やし、各トークンに 1 つ割り当てることで、複数のトークン予測に対応するためにいくつかの変更を加えました。

このように、結論を導き予測を行うために、モデルは同じ基本的な予測戦略を使用しますが、複数のヘッドを利用することでプロセスをスピードアップできます。研究調査では、

「マルチトークン予測は、コストがかからずシンプルですが、より強力で高速なトランスフォーマー モデルをトレーニングするための効果的な変更です。」

出典: メタ。

研究者らは研究中に、この手法を小さなモデルに使用した場合、平均以下の結果が得られたが、同じプロセスをより大きなモデルに適用すると結果が平均以上になり、モデルのサイズが大きくなるにつれて結果が向上し続けたことを発見した。研究によると、

「この方法は、モデルのサイズが大きくなるにつれてますます有用になり、複数のエポックのトレーニングでもその魅力は変わりません。特にコーディングなどの生成ベンチマークでは、私たちのモデルが一貫して強力なベースラインを数パーセント上回るパフォーマンスを発揮し、その効果は顕著です。」

出典: メタ。

研究者らはまた、マルチトークン予測技術により、モデルが論理的な結果を生成する速度が 3 倍になり、追加コストがまったくかからないか、またはほとんどかからないという利点があると述べています。