著者:YBBキャピタル研究者 Zeke
一、注意力の新しさと古さが始まり
過去1年間、アプリケーション層のナarrativeが途絶え、インフラの爆発的な成長に追いつけず、暗号分野は徐々に注意リソースの争奪戦に変わりました。Silly DragonからGoat、Pump.funからClankerまで、注意の新しさと古さに対する好みがこの争奪戦を内向的にしました。最も陳腐な視覚的な注目を集めることから始まり、注意を求める者と供給者が統一されたプラットフォームモデルへと急速に進化し、シリコンベースの生物が新たなコンテンツ供給者になるのは時間の問題です。ミームコインの奇妙な媒体の中で、ついに小売業者とVCがコンセンサスを得られる存在が現れました:AIエージェント。
注意力は最終的にゼロサムゲームですが、投機は確かに物事を野蛮に成長させることができます。私たちはUNIに関する記事の中で、ブロックチェーンの黄金時代の始まりを振り返りました。DeFiの急成長の原因は、Compound FinanceがLPマイニングの時代を開いたことに起因しています。Apyが千以上、さらには万の様々なマイニングプールの中を出入りすることが、その時期のチェーン上で最も原始的なゲームの方法でした。最終的には様々なマイニングプールが崩壊しましたが、金鉱採掘者の狂った流入は確かにブロックチェーンに前例のない流動性をもたらしました。DeFiは最終的に純粋な投機を超えて成熟したトラックを形成し、支払い、取引、アービトラージ、ステーキングなどの面でユーザーの金融ニーズを満たしました。AIエージェントも現在、この野蛮な段階を経験しており、私たちが探求しているのはCryptoがどのようにAIとより良く融合し、最終的にアプリケーション層が新たな高みに達することができるかです。
二、エージェントはどのように自律するか
前回の記事でAIミームの起源であるTruth TerminalとAIエージェントの未来への展望を簡単に紹介しましたが、この記事ではまずAIエージェント自体に焦点を当てます。
まずAIエージェントの定義から始めます。エージェントはAI分野では古くからあるが定義が曖昧な用語であり、主に自律性(Autonomous)を強調しています。すなわち、環境を感知して反応することができるAIはすべてエージェントと呼ばれます。現在の定義では、AIエージェントはより知的な存在に近く、大モデルに人間の意思決定を模倣する一連のシステムを設定することを指します。このシステムは学術界ではAGI(汎用人工知能)への最も有望な道と見なされています。
初期のGPTバージョンでは、大モデルが人間に非常に似ていることを明確に感じることができましたが、多くの複雑な問題に回答する際、大モデルはしばしば似て非なる答えしか提供できませんでした。本質的な理由は、その時の大モデルが確率に基づいていたためであり、因果関係を欠いていたこと、さらに人間が持つ道具の使用、記憶、計画などの能力が欠如していたことです。AIエージェントはこれらの欠点を補うことができます。したがって、次のような公式で要約できます。AIエージェント(エージェント)=LLM(大モデル)+計画(Planning)+記憶(Memory)+ツール(Tools)。
プロンプトに基づく大モデルは静的な人間のようなもので、入力することで生命を得ます。エージェントの目標は、より実際の人間になることです。現在、業界内のエージェントは主にMetaがオープンソースしたLlama 70bまたは405bバージョン(パラメータは異なる)を基にした微調整モデルであり、記憶やAPI接続ツールを使用する能力を備えています。他の面では、人間の助けや入力(他のエージェントとの相互作用や協力を含む)を必要とする場合もあります。したがって、現在業界内の主要なエージェントは依然としてKOLの形でソーシャルネットワークに存在しています。エージェントを人間により似せるためには、計画能力と行動能力を接続する必要がありますが、計画の中で特に思考チェーンが重要です。
三、思考チェーン(Chain of Thought, CoT)
思考チェーン(Chain of Thought, CoT)の概念は、2022年にGoogleが発表した論文(Chain-of-Thought Prompting Elicits Reasoning in Large Language Models)に初めて登場しました。この論文では、中間推論ステップを生成することでモデルの推論能力を強化し、モデルが複雑な問題をよりよく理解し解決するのに役立つことが指摘されています。
典型的なCoTプロンプトは、以下の3つの部分で構成されています:明確な指示を持つタスクの説明、論理的根拠、タスク解決のための理論的基盤または原理の例、具体的な解決策の提示。この構造化されたアプローチは、モデルがタスクの要求を理解するのに役立ち、論理的推論を通じて答えに徐々に近づくことで、問題解決の効率と正確性を向上させます。CoTは、数学問題の解決、プロジェクトレポートの作成など、深い分析と多段階推論が必要なタスクに特に適しており、簡単なタスクにおいては明らかな利点をもたらさないこともありますが、複雑なタスクに対しては、モデルのパフォーマンスを著しく向上させ、段階的な解決戦略を通じてエラー率を低下させ、タスクの完了品質を向上させます。
AIエージェントを構築する際、CoTは重要な役割を果たしました。AIエージェントは受け取った情報を理解し、それに基づいて合理的な決定を下す必要があります。CoTは秩序だった思考方法を提供することで、エージェントが入力情報を効果的に処理し分析し、解析結果を具体的な行動ガイドラインに変換するのを助けます。この方法はエージェントの決定の信頼性と効率性を高めるだけでなく、決定プロセスの透明性を向上させ、エージェントの行動をより予測可能で追跡可能にします。CoTはタスクを複数の小さなステップに分解することで、エージェントが各決定ポイントを詳細に考慮し、情報過多による誤った決定を減らすのに役立ちます。CoTによりエージェントの決定プロセスがより透明になり、ユーザーはエージェントの決定根拠を理解しやすくなります。環境との相互作用において、CoTはエージェントが新しい情報を継続的に学習し、行動戦略を調整することを可能にします。
CoTは効果的な戦略の一つとして、大型言語モデルの推論能力を向上させるだけでなく、より知的で信頼性のあるAIエージェントの構築において重要な役割を果たしています。CoTを利用することで、研究者や開発者は、複雑な環境に適応し、高度な自律性を備えた知的システムを創造することが可能になります。CoTは実際の応用において、その独自の利点を示しており、特に複雑なタスクを処理する際に、タスクを一連の小さなステップに分解することで、タスク解決の正確性を向上させるだけでなく、モデルの説明可能性と制御性を強化します。この逐次的な問題解決のアプローチは、複雑なタスクに直面した際に情報が過剰または複雑すぎるために起こる誤った決定を大幅に低下させることができます。同時に、この方法により全体的な解決策の追跡可能性と検証可能性も向上します。
CoTの核心機能は計画、行動、観察を相互に結びつけ、推論と行動の間のギャップを埋めることです。この思考モデルは、AIエージェントが予測される異常な状況に対して効果的な対策を講じ、外部環境と相互作用しながら新しい情報を蓄積し、事前に設定された予測を検証し、新たな推論の根拠を提供できるようにします。CoTは、高い精度と安定性を持つエンジンのようなものであり、AIエージェントが複雑な環境で効率的に作業するのを助けます。
四、正しい偽需要
Cryptoは一体どのような面でAI技術スタックと結びつくべきなのでしょうか?昨年の記事では計算力とデータの非中央集権が小企業や個人開発者のコストを削減するための重要なステップだと考えましたが、今年Coinbaseが整理したCrypto x AIの細分化された市場では、より詳細な区分を見ました。
(1)計算層(AI開発者にGPUリソースを提供するネットワーク);
(2)データ層(AIデータパイプラインの非中央集権的なアクセス、編成、検証をサポートするネットワーク);
(3)ミドルウェア層(AIモデルまたはエージェントの開発、展開、ホスティングをサポートするプラットフォームまたはネットワーク);
(4)アプリケーション層(オンチェーンAIメカニズムを利用したユーザ向け製品、B2BまたはB2C)。
この4つの階層において、各階層には壮大なビジョンがあり、その目的は要約すると、シリコンバレーの巨人がインターネットを支配する次の時代に対抗することです。私が昨年言ったように、私たちは本当にシリコンバレーの巨人が計算力とデータを独占的に制御することを受け入れるべきなのでしょうか?彼らの独占下にあるクローズドモデルは内部がブラックボックスであり、科学は今日の人類が最も信仰する宗教です。未来の大モデルが答えるすべての言葉は、多くの人々によって真実と見なされるでしょうが、その真実はどうやって検証されるのでしょうか?シリコンバレーの巨人の考えによれば、エージェントが最終的に持つ権限は想像を超えるものであり、例えばあなたの財布の支払い権、端末の使用権を持つことなどがあります。人間に悪意がないことをどう保証するのでしょうか?
非中央集権は唯一の答えですが、時には合理的に考慮する必要があります。これらの壮大なビジョンの支払い者はどれだけいるのでしょうか。過去には商業の閉ループを考慮せずに、トークンを通じて理想化による誤差を補うことができました。しかし、現在の状況は非常に厳しく、Crypto x AIは現実の状況を考慮して設計する必要があります。たとえば、パフォーマンスの損失と不安定さの中で、計算層が供給の両端をどのようにバランスを取るべきか、中央集権的なクラウドとの競争力を実現するためにはどうすればいいのでしょうか。データ層のプロジェクトには実際のユーザーがどれだけいるのか、提供されるデータの真実性と有効性をどう検証するのか、そしてそのデータが必要な顧客はどのようなものでしょうか。他の二層も同様です。この時代において、私たちは見かけ上正しい偽需要をそれほど必要としていません。
五、ミームはSocialFiを駆け抜けた
私が最初の段落で述べたように、ミームは超高速でWeb3に適合したSocialFiの形態を持ち出しました。Friend.techはこのラウンドのソーシャルアプリケーションの第一弾ですが、残念ながら急速なトークン設計に敗れました。Pump.funは純粋なプラットフォームの実行可能性を検証し、トークンを作らず、ルールを設けません。注意を求める者と供給者が統一され、プラットフォーム上でミームを発信したり、ライブ配信したり、コインを発行したり、コメントを残したり、取引したり、すべてが自由です。Pump.funはサービス料のみを請求します。これらは現在のYouTube、Instagramなどのソーシャルメディアの注意経済モデルと基本的に一致していますが、料金の対象は異なり、Pump.funの遊び方はよりWeb3です。
BaseのClankerは集大成者であり、エコシステムが自ら設計した統合エコシステムの恩恵を受けています。Baseは独自のソーシャルDappを補助として持ち、完全な内部閉ループを形成します。エージェントミームはミームコインの2.0形態であり、人は常に新しいものを求め、Pump.funは現在まさに流行の真っ只中にあります。トレンド的に見ると、シリコンベースの生物の無思考な想像が炭素基の生物の低俗なミームを置き換えるのは時間の問題です。
私は無数の回数Baseについて言及してきましたが、毎回言及する内容は異なります。タイムラインを見ると、Baseは決して先行者ではありませんが、常に勝者です。
六、エージェントは他に何ができるか?
実際的な観点から言うと、エージェントは将来的には長い間非中央集権的にはなり得ません。従来のAI分野におけるエージェントの構築を考慮すると、それは単なる推論プロセスで解決できる問題ではなく、Web2のコンテンツにアクセスするために様々なAPIに接続する必要があります。その運用コストは非常に高く、思考チェーンの設計および多エージェントの協力は通常、人間を媒介として依存します。私たちは、適切な融合形態が現れるまで非常に長い移行期を経ることになるでしょう。おそらくUNIのように。しかし、前回の記事と同様に、エージェントは私たちの業界に大きな衝撃を与えると私は依然として考えています。Cexが私たちの業界に存在するように、それは不正確ですが非常に重要です。
スタンフォードとマイクロソフトが先月発表した(AIエージェントの概要)という記事では、医療、スマートマシン、仮想世界におけるエージェントの応用が大量に記述されています。また、この記事の付録には、GPT-4Vがエージェントとして最高の3Aゲーム開発に参加する試験ケースが非常に多く含まれています。
それが非中央集権と結びつく速度を強く求める必要はありません。私はむしろ、エージェントが最初に補完すべきパズルのピースは、下から上への能力と速度であることを望んでいます。私たちには多くの物語の廃墟と空白のメタバースがあり、それを埋める必要があります。適切な段階で、どのように次のUNIになれるかを考えましょう。
参考資料
大モデルの“出現”する思考チェーンは、一体どのような能力なのでしょうか?著者:脳極体
一文でエージェントを理解する、大規模モデルの次のステップ 著者:LinguaMind