著者:YBB Capital Researcher Zeke

一、注意力に基づく新しい興味と飽き

過去1年間、アプリケーション層の物語の断絶により、インフラストラクチャの爆発的な成長にマッチできず、暗号分野は徐々に注意力資源を奪い合うゲームに変わりました。Silly DragonからGoat、Pump.funからClankerまで、注意力の新鮮さと飽きがこの争奪戦を内側から巻き込んでいます。最も陳腐な目を引く収益化から始まり、注意力の需要者と供給者が統一されたプラットフォームモデルに急速に移行し、シリコンベースの生物が新しいコンテンツ供給者になるまでに至りました。ミームコインの奇妙な体現の中で、ついに小口投資家とVCが合意に達する存在が現れました:AIエージェント。

注意力は最終的にはゼロサムゲームですが、投機は確かに物事の野蛮な成長を促すこともあります。私たちはUNIに関する文書の中で、ブロックチェーンの過去の黄金時代の始まりを振り返りました。DeFiの急速な成長は、Compound FinanceがLPマイニング時代を開いたことに起因しており、APYが数千、数万のさまざまなマイニングプールに出入りすることが、その時期のチェーン上で最も原始的なゲームの方法でした。最終的には、さまざまなマイニングプールが崩壊し、散らばった状況になりました。しかし、ゴールドマイナーの狂った流入は確かにブロックチェーンに前例のない流動性をもたらしました。DeFiは最終的に純粋な投機から脱却し、ユーザーの金融ニーズを満たす成熟したトラックを形成しました。AIエージェントも現在、この野蛮な段階を経験しており、私たちが探求しているのはCryptoがどのようにAIとより良く融合し、最終的にアプリケーション層が新たな高みに到達するのかです。

二、エージェントはどのように自律的になるのか

私たちは前の文書でAIミームの起源:Truth TerminalやAIエージェントの未来について簡単に紹介しましたが、この記事ではAIエージェント自体に焦点を当てます。

私たちはまずAIエージェントの定義から始めましょう。エージェントはAI分野において比較的古いが明確でない用語であり、主に自律性(Autonomous)を強調しています。すなわち、環境を感知し反応することができるAIはすべてエージェントと呼ばれます。現在の定義ではAIエージェントはよりスマートな存在に近く、大モデルに人間の決定を模倣するシステムを設定することを意味します。学術界ではこのシステムがAGI(汎用人工知能)への最も有望な道と見なされています。

初期のGPTバージョンでは、大モデルが人間に非常に似ていることが明らかであり、多くの複雑な問題に対して大モデルが似非的な回答しかできないことがありました。本質的な理由は、当時の大モデルが確率に基づいており、因果関係を欠いていたこと、また人間が持つツールの使用、記憶、計画などの能力を欠いていたことです。しかし、AIエージェントはこれらの欠陥を補完できます。したがって、公式でまとめると、AIエージェント(エージェント)=LLM(大モデル)+計画(Planning)+記憶(Memory)+ツール(Tools)です。

プロンプト(Prompt)に基づく大モデルは、静的な人間のようです。入力することで初めて命を持ちます。エージェントの目標は、より現実の人間に近づくことです。現在、業界内のエージェントは主にMetaがオープンソースしたLlama 70bまたは405bバージョン(パラメーターが異なる)の微調整モデルに基づいており、記憶やAPI接続ツールを使用する能力を備えています。他の面では人間の助けや入力(他のエージェントとの相互協力も含む)を必要とするかもしれません。そのため、現在の業界主要なエージェントは、KOLの形でソーシャルネットワーク上に存在しています。エージェントをより人間に近づけるには、計画と行動の能力を接続する必要があり、その中で思考連鎖が特に重要です。

三、思考連鎖(Chain of Thought, CoT)

思考連鎖(Chain of Thought, CoT)の概念は、2022年にGoogleが発表した論文(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)で初めて登場しました。この論文では、一連の中間推論ステップを生成することでモデルの推論能力を高め、モデルが複雑な問題をよりよく理解し解決するのを助けることができると指摘しています。

典型的なCoTプロンプトは3つの部分から構成されます:明確な指示を持つタスクの説明、タスク解決を支える論理的根拠、具体的な解決策の例。このような構造的な方法は、モデルがタスク要件を理解するのを助け、論理的推論を通じて答えに段階的に近づくことで、問題解決の効率と正確性を向上させます。CoTは、詳細な分析と多段階の推論を必要とするタスクに特に適しています。たとえば、数学問題の解決やプロジェクト報告書の作成などの簡単なタスクでは、CoTは顕著な利点をもたらさないかもしれませんが、複雑なタスクでは、モデルのパフォーマンスを大幅に向上させ、段階的解決戦略を通じてエラー率を減少させ、タスク完了の品質を向上させることができます。

AIエージェントを構築する際、CoTは重要な役割を果たします。AIエージェントは受け取った情報を理解し、それに基づいて合理的な決定を下す必要があります。CoTは秩序ある思考方法を提供し、エージェントが入力情報を効果的に処理・分析し、解析結果を具体的な行動ガイドに変換するのを助けます。この方法は、エージェントの決定の信頼性と効率を高めるだけでなく、決定プロセスの透明性を向上させ、エージェントの行動をより予測可能で追跡可能にします。CoTはタスクを複数の小さなステップに分解することで、エージェントが各決定点を詳細に考慮するのを助け、情報過多による誤った決定を減少させます。CoTはエージェントの決定プロセスをより透明にし、ユーザーがエージェントの決定根拠を理解しやすくします。環境との相互作用において、CoTはエージェントが新しい情報を継続的に学習し、行動戦略を調整することを許可します。

CoTは効果的な戦略として、大規模言語モデルの推論能力を向上させるだけでなく、よりスマートで信頼性の高いAIエージェントの構築にも重要な役割を果たします。CoTを利用することで、研究者や開発者は複雑な環境に適応し、高度な自律性を持つインテリジェントシステムを生み出すことができます。CoTは実際のアプリケーションで独自の利点を示し、特に複雑なタスクを処理する際には、タスクを一連の小さなステップに分解することで、タスク解決の正確性を向上させるだけでなく、モデルの可解釈性と制御性を高めます。この段階的な問題解決のアプローチは、複雑なタスクに直面したときに情報が多すぎたり、複雑すぎたりして誤った決定を下すリスクを大幅に減少させることができます。また、この方法は全体の解決策の追跡性と検証可能性を高めます。

CoTの核心機能は、計画、行動、観察を相互に結び付け、推論と行動の間のギャップを埋めることです。この思考パターンにより、AIエージェントは遭遇する可能性のある異常事態を予測し、効果的な対策を講じることができ、外部環境と相互作用しながら新しい情報を蓄積し、事前に設定した予測を検証し、新しい推論の根拠を提供します。CoTはまるで強力な精度と安定性のエンジンのようで、AIエージェントが複雑な環境で高い作業効率を維持するのを助けます。

四、正しい偽需要

CryptoはAI技術スタックのどの側面と結合するべきでしょうか?昨年の文書では、計算力とデータの去中心化が小企業や個人開発者がコストを節約するための重要なステップであると考えましたが、今年のCoinbaseがまとめたCrypto x AIの細分化されたトラックでは、さらに詳細な区分が見られます。

(1)計算層(AI開発者にGPUリソースを提供するネットワークに焦点を当てる)。

(2)データ層(AIデータパイプラインの去中心化アクセス、編成、検証をサポートするネットワーク)。

(3)ミドルウェア層(AIモデルまたはエージェントの開発、デプロイ、ホスティングをサポートするプラットフォームまたはネットワーク)。

(4)アプリケーション層(オンチェーンAIメカニズムを利用したユーザー向け製品、B2BでもB2Cでも)。

この4つの分類層の中で、それぞれの層には壮大なビジョンがあります。その目標は、要約すると、シリコンバレーの巨頭がインターネットを占拠する次の時代に対抗することです。私が昨年言ったように、私たちは本当にシリコンバレーの巨頭が計算力やデータを独占することを受け入れなければならないのでしょうか?彼らが独占するクローズドソースの大モデルの内部は黒いボックスであり、科学は今日の人類が最も信じる宗教です。未来において、大モデルが答えるすべての言葉は、多くの人々によって真実と見なされるでしょう。しかし、この真実をどのように検証するのでしょうか?シリコンバレーの巨頭の考えに従えば、エージェントが最終的に持つ権限は想像を超えるものになるでしょう。たとえば、あなたの財布の支払い権や端末の使用権など、人に悪意がないことをどう保証するのでしょうか?

去中心化は唯一の答えですが、時には私たちは合理的に総合的に考慮する必要があります。これらの壮大なビジョンの支払い者はどれだけいるのでしょうか?過去には、商業的な閉環を考慮せずに、トークンを通じて理想化によって引き起こされる誤差を補うことができました。しかし、現在の状況は非常に厳しいものであり、Crypto x AIは現実の状況と結びつけてデザインする必要があります。例えば、計算力層は性能損失と不安定な状況において、両端をどのようにバランスさせるのか?中央集権的なクラウドの競争力を実現するために。データ層のプロジェクトには実際のユーザーがどれだけいるのか、提供されるデータの真実性をどう検証するのか、どのような顧客がこれらのデータを必要とするのか?他のすべての二次層も同様です。この時代において、私たちはそれほど多くの一見正しい偽需要を必要としません。

五、ミームがSocialFiを実現した

私が第一段落で述べたように、ミームは超高速でWeb3のSocialFi形態に適合しました。Friend.techはこのラウンドのソーシャルアプリケーションの第一弾として打ち出されましたが、残念ながら急いで設計されたトークンに敗れました。Pump.funは純粋なプラットフォームの実行可能性を検証し、トークンもルールも作らず、注意力の需要者と供給者が統一された形で、プラットフォーム上でミーム画像を投稿したり、ライブ配信したり、トークンを発行したり、メッセージを送ったり、取引を行ったり、すべてが自由です。Pump.funはサービス料のみを徴収します。これは現在のYouTubeやInstagramなどのソーシャルメディアの注意力経済モデルと基本的に一致していますが、料金の対象は異なり、Pump.funのプレイスタイルはよりWeb3です。

BaseのClankerは集大成者であり、エコシステムが自ら運営する統合エコシステムによって恩恵を受けています。Baseは独自のソーシャルDappを補助として持ち、完全な内部閉環を形成しています。エージェントミームはミームコインの2.0形態であり、人は常に新しいものを求めます。Pump.funはちょうど今、注目の的にあり、トレンドから見ると、シリコンベースの生物の奇想天外な発想が炭素ベースの生物の低俗なジョークを置き換えるのは時間の問題です。

私はBaseについて数えきれないほど言及してきましたが、触れる内容は毎回異なります。タイムラインで見ると、Baseは決して先行者ではありませんが、常に勝者です。

六、エージェントは他に何になれるのか?

実用的な観点から見ると、エージェントは今後長い間去中心化されることは不可能です。伝統的なAI分野におけるエージェントの構築は、単なる推論プロセスの去中心化やオープンソースでは解決できない問題です。さまざまなAPIを接続してWeb2のコンテンツにアクセスする必要があり、その運営コストは非常に高いです。思考連鎖の設計や多エージェントの協力は通常、人間を媒介として依存します。私たちは適切な統合形態が現れるまで非常に長い移行期間を経験することになります。それはおそらくUNIのようなものでしょう。しかし前回の文書と同様に、私はエージェントが私たちの業界に大きな衝撃をもたらすと考えています。Cexが私たちの業界に存在するように、正しくないが非常に重要です。

スタンフォード&マイクロソフトが先月発表した(AIエージェントの概要)という文書は、医療業界、インテリジェントマシン、仮想世界におけるエージェントの応用について大量に記述しています。この文書の付録には、すでに多くのGPT-4Vがエージェントとして参加しているトップレベルの3Aゲーム開発の実験ケースがあります。

去中心化との結合の速度をあまり強く求める必要はありません。私はむしろ、エージェントが最初に補うべきパズルのピースは、下から上への能力と速度であることを望んでいます。私たちは多くの物語の廃墟と空白のメタバースを埋める必要があります。適切な段階で、私たちはそれを次のUNIにする方法を考えます。

参考資料

大モデルの「出現」の思考連鎖は、究極的にどのような能力なのでしょうか? 著者:脳極体

エージェントを理解するための文書、大モデルの次のステップ 著者:LinguaMind