Google の人工知能モデル「ジェミニ」は、このテクノロジー大手の技術の多くに組み込まれつつあり、この AI はまもなく Gmail、YouTube、同社のスマートフォンに搭載される予定だ。

5月14日に行われた同社の開発者会議「I/O 2024」の基調講演で、CEOのサンダー・ピチャイ氏は、同社のAIモデルが今後登場する場所のいくつかを明らかにした。

ピチャイ氏は110分間の基調講演でAIについて121回言及し、話題の中心となった。12月に発売されたジェミニが脚光を浴びた。

Google は、Android、検索、Gmail など、ほぼすべてのサービスに大規模言語モデル (LLM) を組み込んでいます。今後ユーザーが期待できることは次のとおりです。

Google I/O 2024でのサンダー・ピチャイ氏。出典: Google アプリのインタラクション

Gemini は、アプリケーションと対話できるようになるため、より多くのコンテキストを利用できるようになります。今後のアップデートでは、ユーザーは Gemini を呼び出して、AI が生成した画像をメッセージにドラッグ アンド ドロップするなど、アプリと対話できるようになります。

YouTube ユーザーは、「この動画について質問する」をタップして、動画内の AI から特定の情報を見つけることもできます。

Gmail の Gemini

Google の電子メール プラットフォームである Gmail にも AI が統合され、ユーザーは Gemini を使用して電子メールを検索、要約、下書きできるようになります。

AI アシスタントは、受信トレイの検索、領収書の検索、オンライン フォームへの入力など、e コマースの返品処理の支援など、より複雑なタスクを電子メールで実行できるようになります。

ジェミニライブ

Google はまた、ユーザーがスマートフォン上の AI と「詳細な」音声チャットを行える「Gemini Live」という新しい体験も発表した。

チャットボットは、回答の途中で中断して説明を求めることができ、ユーザーの話し方のパターンにリアルタイムで適応します。さらに、Gemini はデバイスで撮影した写真やビデオを通じて物理的な周囲の状況を確認し、それに応答することもできます。

ジェミニのプロモーションビデオのスクリーンショット。出典: Google マルチモーダルの進歩

Google は、監視下でユーザーに代わって複雑な複数ステップのタスクを推論、計画、完了できるインテリジェント AI エージェントの開発に取り組んでいます。マルチモーダルとは、AI がテキストを超えて、画像、音声、ビデオの入力を処理できることを意味します。

例と初期の使用事例としては、買い物の返品の自動化や新しい都市の探索などが挙げられます。

関連: Google の「GPT-4 キラー」Gemini がリリースされました。試す方法は次のとおりです。

同社の AI モデル向けに現在進行中のその他のアップデートには、モバイル オペレーティング システムに完全に統合された Gemini による Android 上の Google アシスタントの置き換えも含まれています。

新しい「Ask Photos」機能では、Gemini による自然言語クエリを使用して写真ライブラリを検索できます。コンテキストを理解し、オブジェクトや人物を認識し、質問に応じて写真の思い出を要約できます。

プラットフォームのマッピングデータからの洞察を活用して、AI が生成した場所とエリアの概要が Google マップに表示されます。

雑誌:「AIの終末を防ぐためにAI同士を攻撃する」:SF作家デイビッド・ブリン