人工知能(AI)モデルは、トレーニング中にそれを示す前に、いくつかの能力を持っていることが新しい研究によって示されました。ハーバード大学とミシガン大学によって行われた研究によると、モデルは何らかの方法でそれらの能力を示す必要があるまで、これらの能力を示しません。
この研究は、AIモデルが能力を示す前にどのように構築するかを理解するために行われた多くの研究の1つです。
この研究では、AIモデルがサイズや色などの基本概念をどのように学習するかを分析し、ほとんどのテストが示唆するよりも早くスキルを習得することを明らかにしました。この研究は、AIの能力を測定することの複雑さについても洞察を提供しました。「モデルは標準的なプロンプトを与えられたときに無能に見えるかもしれませんが、実際には特定の条件下でのみ現れる高度な能力を持っている」と論文は述べています。
研究によると、AIモデルは概念を内面化することが示されています
ハーバード大学とミシガン大学は、AIモデルの能力を理解しようとする最初の研究者ではなく、Anthropicの研究者たちは「辞書学習」という論文を発表しました。この論文では、Claude言語の中で特定の概念との接続をマッピングすることが議論されました。これらの研究のほとんどは異なるアングルを取りましたが、主にAIモデルを理解するためのものです。
Anthropicは、異なる解釈可能な概念に結びつけられる特徴を発見したことを明らかにしました。「人々、国、著名な建物のような具体的な物体から、感情、文体、推論ステップのような抽象的なアイデアに至るまで、解釈可能な概念に対応すると思われる何百万もの特徴を見つけました」と研究は明らかにしました。
研究の中で、研究者たちはAIの最も人気のあるアーキテクチャの1つである拡散モデルを使用していくつかの実験を行いました。実験中、彼らはモデルが基本的な概念を操作するための独自の方法を持っていることに気付きました。パターンは一貫しており、AIモデルは異なるフェーズで新しい能力を示し、新しい能力が獲得される際の鋭い転換点を示しました。
トレーニング中、モデルは標準テストが検出するよりも約2,000ステップ早く概念を習得していることを示しました。強い概念は約6,000ステップで現れ、弱いものは約20,000ステップで見られました。概念信号が調整された後、彼らは学習速度との直接的な相関関係を発見しました。
研究者たちは隠れた能力にアクセスする方法を明らかにしました
研究者たちは、標準テストで示される前に隠れた能力を明らかにするために代替的なプロンプト手法を使用しました。隠れた出現の急増する性質は、AIの評価と安全性に影響を与えます。例えば、従来のベンチマークはAIモデルの特定の能力を見逃す可能性があり、それによって有益なものと懸念されるものの両方を見逃すことになります。
研究の中で、チームはAIモデルの隠れた能力にアクセスするための特定の方法を見つけました。研究は、モデルが標準テストで示す前に複雑な行動を示すように促す手法を線形潜在介入と過剰プロンプトと呼びました。研究者たちはまた、AIモデルが標準的なプロンプトを通じてそれらを示すことができる前に特定の複雑な特徴を操作していたことを発見しました。
例えば、モデルは「笑っている女性」や「帽子をかぶった男性」を生成するように促されることができ、成功した後にそれらを組み合わせるように求められました。しかし、研究は彼らがそれを早く組み合わせることを学んでいるが、従来のプロンプトを通じてそれを示すことはできないことを示しました。能力を示すモデルは、拡張トレーニングの後に完璧なテストパフォーマンスを示す状況である「グロッキング」と言えます。しかし、研究者たちは両者の間には重要な違いがあると述べました。
グロッキングは、数回のトレーニングセッションの後に発生し、同じデータセットのいくつかの分布を洗練することを含みますが、研究はこれらの能力がアクティブな学習中に出現することを示しています。研究者たちは、モデルがグロッキングにおける徐々の表現改善ではなく、フェーズの変化を通じて概念を操作する新しい方法を見つけたと指摘しました。
研究によると、AIモデルはこれらの概念を知っているが、それを示すことができないことが示されています。これは、外国映画を見て理解するが、言語を話すことができない人々に似ています。これは、ほとんどのモデルが示す以上の能力を持っていることを示し、彼らの能力を理解し制御することの難しさも示しています。
ゼロからWeb3プロへ:あなたの90日間のキャリア開始プラン