ハーバード大学とミシガン大学の新しい研究によると、現代の AI モデルには、トレーニング中に突然かつ継続的に出現する隠れた能力があるが、これらの能力は特定の方法で促されるまでは隠されたままであるという。
AIシステムが色や大きさなどの概念を学習する方法を分析したこの研究では、モデルが標準的なテストで示唆されるよりもはるかに早くこれらのスキルを習得することが多いことが明らかになりました。これはAIの安全性と開発に大きな影響を与える発見です。
「我々の研究結果は、AIシステムの能力を測定することはこれまで考えられていたよりも複雑であることを示しています」と研究論文は述べている。「モデルは標準的なプロンプトを与えられたときには無能に見えるかもしれませんが、実際には特定の条件下でのみ発揮される高度な能力を備えている可能性があります。」
この進歩は、AI モデルがどのように機能を開発するかを解明することを目的とした、増加し続ける研究に加わるものです。
アントロピックの研究者らは、クロード言語モデル内の何百万もの神経接続をAIが理解する特定の概念にマッピングする技術「辞書学習」を発表したと、デクリプトが今年初めに報じた。
アプローチは異なりますが、これらの研究には共通の目標があります。それは、これまで主に AI の学習の「ブラックボックス」と考えられてきたものに透明性をもたらすことです。
「人、国、有名な建物などの具体的なものから、感情、文章のスタイル、推論の手順などの抽象的な概念まで、解釈可能な概念に対応していると思われる数百万の特徴を発見した」とアントロピックは研究論文で述べている。
研究者たちは、生成 AI の最も一般的なアーキテクチャである拡散モデルを使用して、広範な実験を行いました。これらのモデルが基本的な概念の操作を学習する方法を追跡する中で、一貫したパターンを発見しました。つまり、機能は明確な段階で出現し、モデルが新しい能力を獲得したときには、急激な遷移点が現れるというパターンです。
モデルは、標準的なテストで検出できるよりも早く、最大 2,000 のトレーニング ステップで概念の習得を示しました。強力な概念は 6,000 ステップ付近で出現し、弱い概念は 20,000 ステップ付近で出現しました。
研究者が「コンセプト信号」を調整すると、トレーニング データでアイデアが提示される明瞭さが向上しました。
彼らは学習速度との直接的な相関関係を発見した。代替プロンプト法は、標準テストに現れるずっと前に、隠れた能力を確実に抽出できる可能性がある。
この「隠れた出現」という現象は、AI の安全性と評価に重大な影響を及ぼします。従来のベンチマークでは、モデルが実際に実行できることを大幅に過小評価する可能性があり、有益な機能と懸念される機能の両方を見逃す可能性があります。
おそらく最も興味深いのは、研究チームがこれらの隠れた能力にアクセスする複数の方法を発見したことだ。「線形潜在的介入」と「過剰プロンプト」と名付けた技術を使用することで、研究者はこれらの能力が標準テストに現れるずっと前から、モデルから洗練された行動を確実に抽出することができた。
別のケースでは、研究者らは、AI モデルが標準的なプロンプトを通じてこれらの能力を確実に示すことができるようになる前に、性別の表現や顔の表情などの複雑な特徴を操作することを学習したことを発見しました。
たとえば、モデルは「笑顔の女性」や「帽子をかぶった男性」を、これらの特徴を組み合わせる前に個別に正確に生成できましたが、詳細な分析により、モデルはそれよりずっと以前に組み合わせを習得していたことがわかりました。従来のプロンプトでは、それを表現できなかったのです。
この研究で観察された能力の突然の出現は、最初はグロッキング(長期間のトレーニング後にモデルが突然完璧なテストパフォーマンスを発揮する現象)に似ているように見えるかもしれませんが、重要な違いがあります。
グロッキングはトレーニングのプラトー後に発生し、同じデータ分布上の表現の段階的な改良を伴いますが、この研究では、能動学習中に出現し、分布外の一般化を伴う機能が示されています。
著者らは、概念を新しい方法で操作するモデルの能力に急激な変化があることを発見した。これは、グロッキングで見られる段階的な表現の改善ではなく、離散的なフェーズの変化を示唆している。
言い換えれば、AI モデルは私たちが考えていたよりもずっと早く概念を内面化しているようですが、そのスキルを発揮できないだけです。これは、外国語の映画は理解できても、それを適切に話すのに苦労する人がいるのと同じです。
AI 業界にとって、これは諸刃の剣です。隠れた機能の存在は、モデルがこれまで考えられていたよりも強力である可能性があることを示しています。しかし、それはまた、モデルが何ができるかを完全に理解し、制御することがいかに難しいかを示しています。
大規模な言語モデルや画像ジェネレーターを開発している企業は、テスト プロトコルを改訂する必要があるかもしれません。
従来のベンチマークは依然として価値がありますが、隠れた機能を検出できる、より洗練された評価方法で補完する必要があるかもしれません。
編集者:セバスチャン・シンクレア