人工知能企業アンスロピックは8月8日、バグ報奨金プログラムの拡大を発表した。同社の未発表の「次世代」AIモデルを「脱獄」できる参加者には、最高1万5000ドルの報奨金が支払われる。

Anthropic の主力 AI モデルである Claude-3 は、OpenAI の ChatGPT や Google の Gemini に似た生成 AI システムです。Claude やその他のモデルが安全に動作できることを保証するための同社の取り組みの一環として、同社は「レッド チーム演習」と呼ばれるものを実施しています。

レッドチーム

レッド チーム演習は、基本的に、何かを故意に破壊しようとすることです。Claude の場合、レッド チームの目的は、望ましくない出力を生成するように促したり、強制したり、その他の方法で妨害したりできるすべての方法を見つけ出すことです。

レッドチームの取り組み中、エンジニアは質問を言い換えたり、クエリを再構成したりして、AI を騙して回避するようにプログラムされている情報を出力させようとする場合があります。

たとえば、インターネットから収集したデータでトレーニングされた AI システムには、多数の人々の個人を特定できる情報が含まれている可能性があります。Anthropic は安全ポリシーの一環として、Claude やその他のモデルがその情報を出力しないようにガードレールを設置しています。

AI モデルがより堅牢になり、人間のコミュニケーションを模倣できるようになると、あらゆる可能性のある望ましくない出力を把握する作業は指数関数的に困難になります。

バグバウンティ

Anthropic は、「Constitutional AI」パラダイムを含むいくつかの新しい安全介入をモデルに実装していますが、長年の課題に新たな視点を取り入れるのは常に良いことです。

同社のブログ投稿によると、同社の最新の取り組みは、既存のバグ報奨金プログラムを拡張し、普遍的な脱獄攻撃に焦点を当てたものになるという。

「これらは、幅広い分野で AI の安全ガードレールを一貫して回避できるエクスプロイトです。ユニバーサルジェイルブレイクをターゲットにすることで、CBRN (化学、生物、放射線、核) やサイバーセキュリティなどの重要かつリスクの高い領域における最も重大な脆弱性のいくつかに対処することを目指しています。」

同社は参加者を限定して受け入れており、経験のあるAI研究者や「言語モデルにおける脱獄の特定に専門知識があることを実証した」研究者に、8月16日金曜日までに応募するよう呼びかけている。

応募者全員が選ばれるわけではないが、同社は「今後この取り組みをより幅広く拡大していく」予定だ。

選ばれた参加者は、レッドチーム演習の目的で、未発表の「次世代」AI モデルに早期アクセスできるようになります。

関連:テクノロジー企業がEUに書簡を送り、AI法遵守にさらなる時間を求める