著者:jolestar
先週、AIエージェントを少しいじくってみました。おととい、北京でのai16zのイベントに参加し、AIエージェントが実際に何ができるのか、将来何ができるのかを考えてみました。
AIエージェントの現状は、あのミーム画像を思い出させます。自動販売機の中に人が隠れている。皆が想像するAIエージェントはすでに自主意識を持ち始めていると思っていますが、実際のAIエージェントの中には開発者が隠れているのです。(ここでみんなが画面を想像し、AIにこの画像を生成させようとしたところ、AIは「隠れる」を理解できませんでした)
AIエージェントフレームワークの基本的な動作方法
AIエージェントフレームワークは現在、接着剤の役割を果たしており、クライアント(Twitter、Discord、Telegramなど)とさまざまなプラグイン(各ブロックチェーンなど)を接着し、その後フレームワークは基本ライブラリ(メモリストレージ、会話の隔離、コンテキスト生成など)を提供し、さまざまなAIプラットフォームインターフェイスに接続します。
AIエージェントフレームワークはどのようにアプリケーションおよびビジネスシーンと結びつくか
昨年、AIが急成長して以来、さまざまなプラットフォームやツールが登場しました。最も重要なのは、AIがアプリケーションとどのように結びつくかという問題を解決することです。AIプラットフォームがプラグインの提供を試みたり、ワークフローモデルを構築したり、従来のアプリケーションがアプリ内にAIを埋め込む方法もあります。しかし、ここでの重要なポイントは:1. アプリケーションのインタラクションエントリはどこにあるのか?2. AIはどのように既存のビジネスロジックと結びつくのか。
各AIプラットフォームがユーザーに提供するアプリケーションのインタラクションエントリは、チャットウィンドウに似た対話ボックスです。明らかに、みんなはAIアプリとのインタラクション方法は「擬人化」されるべきだと考えています。この点で、AIエージェントの賢いところは、すべてのオープンIMおよびソーシャルシステムに直接接続していることです。新たに作るよりも受け入れられやすいのは明らかです。
AIはどのように既存のビジネスロジックと結びつくのか。AIエージェントが提供するソリューションは、開発者がAIの意思決定をビジネスシーンに組み込むことを可能にします。プログラミング言語は決定的である必要があり、ifの条件はtrueまたはfalseでなければならず、曖昧なビジネスロジックを処理することはできません。しかし、AIを通じて複雑なロジックを正確な条件に変換することで、ビジネスシーンにシームレスに統合することができます。
例えば、グループ内でメッセージに返信する機能は、従来のIMボットでは明確なメッセージ指令を通じてトリガーされる必要がありますが、AIを通じてshouldReplyMessageというメソッドを実現し、コンテキストを与えると、trueまたはfalseを返します。
AIのビジネスロジックシーンにおける役割は主に次の通りです:
1. 「意図」発見:提示された単語の説明を通じて、AIが文脈に基づいてユーザーのテキストメッセージの「意図」を発見し、その意図を具体的なコードにマッピングします。
2. 意思決定支援:AIを通じて曖昧で複雑な条件を確実な真/偽または列挙型に変換し、それをビジネスロジックに組み込む。
ここまで来ると、多くの人がAIエージェントに失望するかもしれません。多くの人が考えるAIエージェントは、AIにちょっと教えれば何でもできるというものです。実際には、大規模モデルのコンテキスト制限の課題により、万能のAIを(少なくとも現状では)作ることはできません。しかし、良いニュースは、プログラマーが失業を心配する必要はないということです。AIの背後には、依然として多くのプログラマーが隠れており、if elseを積む必要がありますが、重要な違いは、プログラムが処理できるビジネスの境界が拡大しているということです。
2つのAIエージェント
イベントで、Shawに質問しました。市場はAIエージェントに対して2つの期待を持っています。1. AIエージェント自身が役割を果たし、自分のIDやブランドを持ち、ユーザーにサービスを提供すること。2. ユーザーが個人AIエージェントを持ち、個人アシスタントとしてユーザーのビジネス処理を支援すること。この2つのAIエージェントのうち、どちらがより人気があるでしょうか?彼は両方の方向性が良い可能性があり、組み合わせる可能性もあると考えています。
現在、市場で主に探求されているのは最初の方向性です。この方向性は、サービスAIエージェント化に似ており、将来的にはアプリのインターフェースが存在しないかもしれません。アプリはすべてAIエージェント化され、擬人化されるでしょう。第二の方向性は、アプリケーションクライアントのエージェント化であり、将来のアプリケーションクライアントはアシスタントエージェントのプラグインになります。アプリのローカルデータはエージェントのメモリバンクの一部となり、このプラグインはクラウドサービスエージェントと通信する役割も担います。これは新しいアプリケーションアーキテクチャのパターンであり、全体のインフラストラクチャを変えるでしょう。
AIエージェントがインフラストラクチャに求める要件
1. インフラストラクチャは、参入障壁なし(Permissionless)を実現する必要があります。そうでないと、AIエージェントはさまざまな攻撃防止戦略に制限されます。サービスは、経済的コストの方法(ガス)で攻撃を防ぐべきです。この点で、オープン性が低いプラットフォームは、大きな衝撃に直面することになります。Web2初期のオープンプラットフォームの熱が再び燃え上がるでしょう。
2. AIエージェントは、上記の問題を解決するために資金を操作して支払う必要があります。
つまり、将来のサービスは、ブロックチェーンに基づくかどうかにかかわらず、Cryptoの秘密鍵モードの認証とCryptoに基づく支払いをサポートする必要があります。
AIエージェントとブロックチェーンの結合
上記の2点に加えて、AIエージェントがどのようにブロックチェーンと結びつくかは、みんなが探求している方向性です。イベントでは、Mikkkeと彼が行っているfocElizaについて話しました。前述の2種類のAIエージェントは、少なくとも最初のものはブロックチェーンが提供する実行または検証環境を必要とします。なぜなら、AIエージェントが外部にサービスを提供すると、信頼の問題が発生し、その役割は実際にはスマートコントラクトと同じになるからです。
「スマートコントラクト」という名前には当時議論がありました。それは単なるコードの一部であり、どこが「スマート」なのか。AIはスマートコントラクトを名実ともに実現できます。課題は、スマートコントラクト環境でAIインターフェイスをどのように呼び出すかです。大規模モデルを検証可能な環境で動作させることがまだ遠い道のりであるとすれば、Oracleのようなソリューションを用いることがより実現可能な道です。
AIエージェントに関しては、多くの需要が派生します。AIエージェントの公共知識はどのように取得されるのか?AIエージェントはどのように事実を判断するのか?AIエージェントは異なるプラットフォーム上の同じユーザーをどのように識別するのか?スマートコントラクトの「メモリ」はどのように保存されるのか?もし私が複数のデバイスを持ち、それぞれにAIエージェントがインストールされている場合、それらはどのようにメモリを共有するのか?
Web3の中で行われていた「データのブロックチェーンへの上げ」、関係の上げ、DID、P2Pネットワークなどは、新たな意味とシーンを持っていることに気づくでしょう。
結論
2021年にAIとブロックチェーンについての発表の結論を再利用します。AIにより友好的なインターネットは、人類にとってもより友好的なインターネットです。その時はまだ単なるアイデアでしたが、今や未来が来ています。