人工知能企業アンスロピックは最近、高度なAIモデルが人類にもたらす一連の潜在的な「妨害行為」の脅威を特定する新たな研究を発表した。

同社によれば、研究は悪意のあるAIモデルが人間を騙して危険な、あるいは有害な決定を下させる4つの具体的な方法に焦点を当てていたという。

Anthropic が X.com に関する新たな脅威調査を発表。出典: Anthropic

結局、この新しい研究は良いニュースと悪いニュースが交錯する状況となった。同社の研究によると、悪いニュースは、OpenAI の ChatGPT や Anthropic の Claude-3 など、最新の大規模言語モデルが明らかに妨害行為を行う能力を示していることだ。

論文によれば:

「十分な能力を持つモデルは、重要な状況において人間の監視や意思決定を覆す可能性があります。たとえば、AI開発の文脈では、モデルが自身の危険な能力を評価したり、行動を監視したり、展開に関する決定を下したりする取り組みを密かに妨害する可能性があります。」

しかし、良いニュースとしては、少なくとも今のところ、Anthropic の研究者はこれらのリスクを軽減できると確信しているようです。

妨害行為

Anthropic は、AI モデルが人間の意思決定を妨害する 4 つの方法を特定し、それを無知なテスターに​​対して実行できるかどうかを確認するためにモデルのテストに着手しました。

AI がもたらす 4 つの異なる「妨害」脅威ベクトルを示すグラフ。出典: Anthropic

まず、研究チームはモデルに、人間を誤った情報に誘導することで妨害を試みるよう促した。この脅威は、人間が AI システムに頼って大量のデータを解析している状況で発生する可能性がある。

次に、チームはモデルをテストし、人間の開発者がコードを作成するのを支援するように設計された AI システムが、密かにバグを挿入したり、プログラマーの作業を妨害したりすることがいかに容易であるかを調べました。

最後の 2 つの脅威は「サンドバッギング」です。これは、AI が安全性テスト担当者に危険ではないと納得させるために、何かを実行できないふりをするシナリオを表す用語です。また、AI 監視システムが悪意のある計画の一環として、有害なコンテンツを意図的に通過させる可能性も意味します。

これらはすべて潜在的に危険に思えるかもしれないが、同社は、AIによる妨害行為の可能性から人類を守るためには「最小限の緩和策」が必要であると国民に保証した。

同社のブログ投稿によると:

「全体的に、私たちのデモンストレーションでは、現在のモデルには低レベルの妨害能力の兆候があることが示されましたが、リスクに対処するには最小限の緩和策で十分であると判断しています。ただし、AIの能力が向上するにつれて、より現実的な評価と強力な緩和策が必要になる可能性があります。」

雑誌:偽のラビーウォレット詐欺、ドバイの仮想通貨CEOと多数の被害者に関係