Nvidia が支援する人工知能 (AI) スタートアップ企業 Synthesia は、AI アバターが人間の感情や動きを伝えることを可能にする新しいアップグレードを導入しました。

同社は4月25日、企業のプレゼンテーションやマーケティング、研修などでテキスト指示に基づいて感情を表現することを目的とした「Expressive Avatars」を発表した。

これこそが、すべてを変える。歴史上初めて、#AIアバターは相手の言っていることを理解できるようになった。当社の新しいAIアバターモデルEXPRESS-1を搭載し、スクリプトの感情を検知し、人間のコミュニケーションの微妙なニュアンスをすべて表現できる。… pic.twitter.com/uj3WIjcGlm

— シンセシア (@synthesiaIO) 2024年4月25日

生成 AI はリアルな動画を作成できる能力が高く評価されることが多いが、OpenAI の Sora ビデオ ジェネレーターもその例である。

しかし、AI には欠点がないわけではありません。特に人間を描写する場合、手や手足が歪んでいたり、背景がコラージュされていたり、唇が会話とずれていたりすることが多々あります。

Synthesia は、スタジオで実際の人間が台本を読んで開発されている最新バージョンで、この問題を修正することを目指しています。これは、ボットが唇の動きを捉え、感情表現をより正確に行えるようにするために行われました。

シンセシアのCEO兼共同創設者であるビクター・リバルベッリ氏はビデオの中で、これまでは人間と違って「アバターは人間の言っていることを理解しない」という点が欠けており、それが感情に対する表情の反応の欠如につながっていたと語った。

スタジオでは、彼らは「私は幸せです。私は悲しいです。私はイライラしています」といった簡単なプロンプトに、その感情に関連する正しい表情と口調で答えるよう訓練されました。

出典: シンセシア

新しいアバターは130以上の言語で利用可能で、独自の字幕を提供したり、ユーザー自身の声を複製したりすることもできます。

関連: サム・アルトマンがフォーチュン500企業にChatGPTの大量導入を推進: レポート

しかし、コインテレグラフによるモデルのテストによると、シンセシアのウェブサイトにあるフランス語、ドイツ語、スペイン語など英語以外の言語で話すアバターのサンプルモデルの中で、英語の言語モデルが最も先進的で人間に近いとのことだ。

このスタートアップはフォーチュン100社の少なくとも半数を顧客としており、55,000社以上の企業にサービスを提供していると報じられている。その中には、Zoom、ゼロックス、マイクロソフト、ロイターなど、さまざまな業界のリーダー企業が含まれている。

Synthesiaは2017年に設立された英国を拠点とする企業です。昨年のAIブームを受けて、現在AI半導体チップ開発を独占しているNvidiaなどの主要な支援を受け、評価額が10億ドル近くに達しました。

Synthesia は、ビジネス用に人間のようなアバターを作成するという、より限定されたアプローチにより、OpenAI の ChatGPT や Google の Gemini チャットボットなどの競合チャットボット モデル間で見られる誇大宣伝や激しい競争を回避してきました。

雑誌: ChatGPT からより良い暗号通貨予測を得る方法、Humane AI ピンが批判される: AI Eye