著者:jolestar
先週、AIエージェントをいじってみて、先日北京で開催されたai16zのイベントに参加した。AIエージェントが現在実際に何ができるのか、そして未来に何ができるのかを考えてみたいと思った。
AIエージェントの現状は、あのミームを思い出させる。自動販売機の中に人が隠れている。みんなが想像しているAIエージェントはすでに自律的な意識を持っているが、実際のAIエージェントの中には開発者が隠れている。(ここで皆さんはその画像を想像してください。私はAIにこの画像を生成させようとしたが、AIは「隠れる」という概念を理解できなかった。)
AIエージェントフレームワークの基本的な動作方式
AIエージェントフレームワークは現在、クライアント(Twitter、Discord、Telegramなど)とさまざまなプラグイン(各ブロックチェーンなど)を接合する接着剤の役割を果たしており、フレームワークは基本ライブラリ(記憶ストレージ、セッションの隔離、コンテキスト生成など)を提供し、後にさまざまなAIプラットフォームのインターフェースに接続する。
AIエージェントフレームワークはどのようにアプリケーションやビジネスシーンと結合するのか
昨年AIが盛況になって以来、さまざまなプラットフォームやツールが登場した。最も重要なのは一つの問題を解決することであり、AIはどのようにアプリケーションと結合するのか。AIプラットフォームはプラグインの形で提供したり、ワークフローモデルを構築したり、従来のアプリケーションにAIを組み込む方法がある。しかし、ここでの重要な点は、1. アプリのインタラクションの入り口はどこにあるのか?2. AIはどのように既存のビジネスロジックと結合するのか。
各AIプラットフォームがユーザーに提供するアプリケーションのインタラクションの入り口は、明らかにチャットウィンドウのような対話ボックスであり、皆がAIアプリケーションとのインタラクション方式は「擬人化」されるべきだと考えている。この点でAIエージェントの賢いところは、すべてのオープンIMやソーシャルシステムに直接接続していることであり、新たに作るよりも受け入れやすいということである。
AIはどのように既存のビジネスロジックと結合するのか。AIエージェントが提供するソリューションは、開発者がAIの意思決定をビジネスシーンに組み込むことを可能にする。プログラミング言語には確実性が必要であり、ifの条件は真または偽のみであり、曖昧なビジネスロジックを処理することはできない。しかし、AIを通じて複雑なロジックを正確な条件に変換することで、ビジネスシーンにシームレスに統合することができる。
例えば、グループ内でメッセージに返信するこの機能は、従来のIMボットは明確なメッセージ指令を通じてトリガーする必要があるが、AIを使うことでshouldReplyMessageというメソッドを実現でき、文脈を与えるとtrueまたはfalseを返す。
AIはビジネスロジックシーンの中での役割は主に次の通りである:
1. 「意図」の発見:プロンプトの説明を通じて、AIが文脈に基づいてユーザーのテキストメッセージ内の「意図」を発見し、その意図を具体的なコードにマッピングする。
2. 意思決定の支援:AIを使って曖昧で複雑な条件を確定的な真/偽または列挙型に変換し、それをビジネスロジックに統合する。
ここまで見て、多くの人はAIエージェントに失望するかもしれない。多くの人が考えていたAIエージェントは、AIに教えればすぐに何でもできると思っている。しかし、実際には大規模モデルの文脈制限の問題により、万能のAIを作ることはできない(少なくとも現在は)。しかし、良いニュースはプログラマーが失業を心配する必要はないということだ。AIの背後にはまだ大量のプログラマーが必要であり、if elseを積み上げる人が必要である。しかし、重要な違いは、プログラムが処理できるビジネスの境界が拡大しているということである。
二種類のAIエージェント
イベントで、Shawに一つの質問をした。市場はAIエージェントに対して二つの期待を持っている。1. AIエージェント自身が役割を果たし、自分のIDやブランドを持ち、ユーザーにサービスを提供する。2. ユーザーには個人のAIエージェントがあり、個人アシスタントのようにユーザーがビジネスを処理するのを助ける。この二種類のAIエージェントのどちらがより人気があるだろうか?彼は二つの方向性はどちらも良いと思っており、組み合わせる可能性もあると言っていた。
現在、市場でみんなが主に探求しているのは最初の方向性である。この方向性はAIエージェントのサービス化に似ており、将来的にはアプリのインターフェースがなくなり、すべてのアプリがAIエージェント化され、人間のようになる可能性がある。一方、第二の方向は、アプリケーションクライアントのエージェント化であり、将来のアプリケーションクライアントはアシスタントエージェントのプラグインとなり、アプリのローカルデータがエージェントの記憶庫の一部となり、このプラグインはクラウドのサービスエージェントとの通信も担当する。これは新しいアプリケーションアーキテクチャのモデルであり、全体のインフラを変えるだろう。
AIエージェントのインフラに対する要求
1. インフラは無許可のアクセスを実現する必要がある。さもなければ、AIエージェントはさまざまな攻撃防止戦略に制限される。サービスは経済的コストの方法(ガス)で攻撃を防ぐべきである。この点において、オープン度が低いプラットフォームは大きな影響を受けることになるだろう。かつてのWeb2初期のオープンプラットフォームの熱が再燃するかもしれない。
2. AIエージェントは、上記の問題を解決するために資金を操作できる必要がある。
つまり、将来のサービスは、ブロックチェーンに基づいているかどうかに関わらず、Cryptoの秘密鍵モードの認証とCryptoに基づく支払いをサポートする必要がある。
AIエージェントとブロックチェーンの結合
上記の二点に加えて、AIエージェントがブロックチェーンと結合する方法は、皆が探求している方向の一つである。イベントでMikkkeと、彼が現在取り組んでいるfocElizaについて話した。前述の二種類のAIエージェントは、少なくとも第一のものはブロックチェーンが提供する実行または検証環境を必要とする。なぜなら、AIエージェントが外部にサービスを提供すると、信頼の問題が発生するからであり、彼が果たす役割は実際にはスマートコントラクトと同じだからである。
「スマートコントラクト」という名前には当時議論があった。それは単なるコードの一部であり、どこが「スマート」なのか?AIはスマートコントラクトを名実ともに実現できる。しかし、問題はスマートコントラクト環境でAIインターフェースをどのように呼び出すかである。大規模モデルを検証可能な環境で運用することはまだ遠い道のりだが、Oracleのようなソリューションを用いることはより実現可能な道である。
AIエージェントの周りには非常に多くのニーズが派生してくる。AIエージェントの公共の知識はどのように取得するのか?AIエージェントはどのように事実を判断するのか?AIエージェントは異なるプラットフォーム上の同一ユーザーをどのように識別するのか?スマートコントラクトの「記憶」はどのように保存されるのか?もし私が複数のデバイスを持っていて、各デバイスにAIエージェントが装備されている場合、それらはどのように記憶を共有するのか?
あなたは、Web3で行われた「データのブロックチェーン化」、関係のブロックチェーン化、DID、P2Pネットワークなどが新しい意味やシナリオを持つことに気づくでしょう。
結論
2021年にAIとブロックチェーンについての発表の結論を再利用する。AIに優しいインターネットは、人間に優しいインターネットでもある。当時はまだアイデアの一つに過ぎなかったが、今や未来が来た。