オープンソース AI にとって良い 1 週間でした。
水曜日、Meta は最先端の大規模言語モデルである Llama 3.2 へのアップグレードを発表しました。このモデルは話すだけでなく、見ることもできます。
さらに興味深いのは、一部のバージョンは品質を損なうことなくスマートフォンに詰め込むことができることです。つまり、データをサードパーティのサーバーに送信せずに、プライベートなローカル AI 対話、アプリ、カスタマイズを利用できる可能性があります。
水曜日の Meta Connect で発表された Llama 3.2 には 4 つのバージョンがあり、それぞれ異なる機能を備えています。ヘビー級の候補である 11B および 90B パラメータ モデルは、テキストと画像の両方の処理機能でその威力を発揮します。
自然言語による説明に基づいてグラフを分析したり、画像にキャプションを付けたり、画像内のオブジェクトを正確に特定したりするなど、複雑なタスクに取り組むことができます。
Llama 3.2 は、合成ベンチマークで最高のオープンソース マルチモーダル ビジョン LLM であると主張している Allen Institute の Molmo と同じ週にリリースされ、当社のテストでは GPT-4o、Claude 3.5 Sonnet、Reka Core と同等のパフォーマンスを発揮しました。
ザック氏の会社は、効率、スピード、そしてあまり計算を必要としない限定的だが反復的なタスク向けに設計された 1B および 3B パラメータ モデルのペアという、2 つの新しいフライ級チャンピオンも発表しました。
これらの小型モデルは、多言語テキストの達人で、「ツール呼び出し」の才能に恵まれており、プログラミング ツールとの統合性が向上しています。サイズは小さいものの、GPT4o や他の強力なモデルと同じ 128K トークン コンテキスト ウィンドウを誇り、デバイス上での要約、指示の追跡、および書き換えタスクに最適です。
Meta のエンジニアリング チームは、これを実現するために、本格的なデジタル体操を披露しました。まず、構造化されたプルーニングを使用して、大規模なモデルから不要なデータをトリミングし、次に知識の蒸留 (大規模なモデルから小規模なモデルに知識を転送する) を採用して、さらなるスマートさを詰め込みました。
その結果、さまざまなベンチマークで Google の Gemma 2 2.6B や Microsoft の Phi-2 2.7B などのモデルを上回り、同クラスの競合製品を上回る性能を発揮するコンパクト モデルのセットが誕生しました。
Meta は、デバイス上の AI の強化にも力を入れています。ハードウェアの大手である Qualcomm、MediaTek、Arm と提携し、Llama 3.2 が初日からモバイル チップとスムーズに連携できるようにしています。クラウド コンピューティングの大手も例外ではありません。AWS、Google Cloud、Microsoft Azure など、多数の企業が自社のプラットフォームで新しいモデルにすぐにアクセスできる環境を提供しています。
内部的には、Llama 3.2 のビジョン機能は巧妙なアーキテクチャの調整によって実現されています。Meta のエンジニアは、既存の言語モデルにアダプタの重みを組み込み、事前トレーニング済みの画像エンコーダとテキスト処理コアの間に橋渡しを作成しました。
言い換えれば、モデルの視覚機能はテキスト処理能力を犠牲にすることなく、ユーザーは Llama 3.1 と比較して同等かそれ以上のテキスト結果を期待できます。
Llama 3.2 リリースは、少なくとも Meta の基準ではオープンソースです。Meta は、Llama.com と Hugging Face のほか、広範なパートナー エコシステムを通じてモデルをダウンロードできるようにしています。
クラウド上で実行することに興味がある場合は、独自の Google Collab Notebook を使用するか、テキストベースのインタラクションに Groq を使用して、3 秒未満で約 5000 個のトークンを生成できます。
ラマに乗る
私たちは Llama 3.2 を徹底的にテストし、さまざまなタスクにわたってその機能を素早くテストしました。
テキストベースのインタラクションでは、このモデルは以前のモデルと同等のパフォーマンスを発揮します。ただし、コーディング能力はさまざまな結果を生み出しました。
Groq のプラットフォームでテストしたところ、Llama 3.2 は人気のゲームやシンプルなプログラムのコード生成に成功しました。しかし、小型の 70B モデルでは、私たちが考案したカスタム ゲームの機能コードを作成するよう要求されたときにつまずいてしまいました。しかし、より強力な 90B ははるかに効率的で、最初の試行で機能するゲームを生成しました。
このリンクをクリックすると、Llama-3.2 によって生成された完全なコードと、テストした他のすべてのモデルを見ることができます。
画像のスタイルと主観的要素を識別する
Llama 3.2 は、画像内の主観的要素の識別に優れています。未来的なサイバーパンク スタイルの画像を提示し、それがスチームパンクの美学に適合するかどうかを尋ねたところ、モデルはスタイルとその要素を正確に識別しました。このモデルは、そのジャンルに関連する重要な要素がないため、画像がスチームパンクと一致していないことを指摘し、満足のいく説明を提供しました。
チャート分析(およびSD画像認識)
チャート分析は Llama 3.2 のもう一つの強みですが、最適なパフォーマンスを得るには高解像度の画像が必要です。Molmo や Reka などの他のモデルが解釈できるチャートを含むスクリーンショットを入力すると、Llama の視覚機能は低下しました。モデルは、画像の品質が原因で文字を正しく読み取れなかったと謝罪しました。
画像内のテキストの識別
Llama 3.2 はチャート内の小さなテキストの読み取りに苦労しましたが、大きな画像内のテキストの読み取りでは問題なく動作しました。人物を紹介するプレゼンテーション スライドを見せたところ、モデルはコンテキストを正常に理解し、名前と職務をエラーなく区別しました。
評決
全体的に、Llama 3.2 は前世代に比べて大幅に改善されており、オープンソース AI 業界にとって素晴らしい追加機能です。その強みは画像解釈と大きなテキストの認識ですが、特に低品質画像の処理や複雑なカスタム コーディング タスクへの対応など、改善の余地がある領域もあります。
デバイス上での互換性の約束は、プライベートおよびローカル AI タスクの将来にとっても好ましいものであり、Gemini Nano や Apple の独自モデルなどのオファーを締めくくる大きな対抗手段となります。
編集者:ジョシュ・クイトナー、セバスチャン・シンクレア