イーサリアムの共同創設者であるヴィタリック・ブテリン氏によると、OpenAIの生成型人工知能(AI)モデルであるGPT-4がチューリングテストに合格したという。

チューリング テストは、会話モデルがどれだけ人間に似ているかを判断するための AI システムの漠然としたベンチマークです。この用語は、1950 年にこのテストを提案した有名な数学者アラン チューリングにちなんで造られました。

チューリングによれば、当時、人間を騙して他の人間と会話していると思わせるテキストを生成できる AI システムは、「思考」の能力を示すことになるだろうとのことでした。

それから約75年が経ち、世界で2番目に人気の高い暗号通貨を考案したと広く認められている人物は、カリフォルニア大学サンディエゴ校の最近のプレプリント研究を、チューリングテストがついに実用モデルによって「合格」したことを示していると解釈した。

出典: Farcaster の @Vitalik.eth。

カリフォルニア大学サンディエゴ校の研究者らは最近、「チューリングテストではGPT-4と人間を区別できない」と題したプレプリント論文を発表した。この論文では、約500人の被験者に人間とAIモデルをブラインドテストで対話させ、被験者がどちらが人間か判別できるかどうかを調べた。

研究によると、人間は 56% の確率で GPT-4 を「人間」であると誤って判断しました。つまり、機械は人間を騙して、自分は人間の一員だと思い込ませることが多いということです。

ヴィタリック・ブテリンの見解

ブテリン氏によれば、対話する人間の半数以上を騙すことができる AI システムは、チューリング テストに合格したとみなされる。

Farcaster のキャストによると、最近のプレプリント研究について議論しています。

「つまり、人間かボットかを見分ける能力は、基本的にコイン投げのようなものだということです!」

ブテリン氏は、その後の括弧書きで、自分の発言を次のように限定した。「まあ、正確ではない。人間が人間だと推測される確率は 66% だが、ボットの場合は 54% だが、12% の差はごくわずかだ。現実世界では、基本的に合格点とみなされる」。

彼はまた、後に、自身のオリジナルキャストに関するコメントに応えて、チューリングテストは「『AIは今や本格的なもの』であることを示す、これまでで最も有名な社会的に認められたマイルストーンだ。だから、そのマイルストーンがすでに越えられたことを思い出すのは良いことだ」と付け加えた。

チューリングテスト

汎用人工知能 (AGI) とチューリング テストは、2 つの用語が混同されることは多いものの、必ずしも関連があるわけではありません。チューリングは、数学的洞察力に基づいてテストを考案し、会話を通じて AI が人間を騙して自分たちと同じだと思わせるシナリオを予測しました。

チューリング テストは、真のベンチマークや技術的根拠のない一時的な概念であることは言うまでもありません。機械が生物のように「考える」ことができるかどうか、またそのような偉業をどのように測定するかについては、科学的なコンセンサスがありません。簡単に言えば、人工汎用知能または AI の「考える」能力は、現時点では科学界や工学界によって測定または定義されていません。

チューリングは、トークンベースの人工知能システムや、今日の生成型 AI システムの前身である生成型敵対的ネットワーク (GAN) が登場するずっと前に、概念的な予測を行っていました。

汎用人工知能

さらに問題を複雑にしているのは、チューリング テストと関連付けられることが多い人工汎用知能 (AGI) という概念です。科学用語では、「汎用知能」とは、あらゆる知能ベースの偉業を成し遂げることができる知能のことです。これは人間には当てはまりません。なぜなら、人間の知的活動のあらゆる範囲で「汎用」能力を示した人間はいないからです。したがって、「汎用人工知能」は、既知の人間をはるかに超える思考能力を備えていることになります。

そうは言っても、GPT-4 が厳密に科学的な意味での真の「汎用知能」の要件を満たしていないことは明らかです。しかし、AI コミュニティの住人がゴールポストを移動し、かなりの数の人間を騙すことができる AI システムを指すために「AGI」という用語を使用することを止めることはできません。

現在の文化では、「AGI」、「人間のような」、「チューリングテストに合格」などの用語やフレーズは、人間が生成したコンテンツに匹敵するコンテンツを出力する AI システムを指すものとして見られるのが一般的です。

関連:「私たちは暗号とAIの表面をなぞっているだけだ」とマイクロソフト幹部