OpenAI、ChatGPT に音声と画像の会話機能を導入

Binance News · 2023-09-26T00:23:54.000Z

Foresight News によると、OpenAI は今後 2 週間以内に Plus および企業ユーザー向けに ChatGPT に音声および画像会話機能を導入する予定です。音声会話機能は iOS および Android デバイスで利用でき、画像会話機能はすべてのプラットフォームで利用できます。音声機能は、テキストと数秒のサンプル音声から人間のような音声を生成できる新しいテキスト読み上げモデルによってサポートされています。オープンソースの音声認識システム Whisper を使用して、話し言葉をテキストに書き起こし、応答を生成し、その応答を音声に変換してユーザーに再生します。画像機能はマルチモーダル GPT-3.5 および GPT-4 を利用しており、写真、スクリーンショット、テキストと画像を含むドキュメントなどのさまざまな画像に言語推論スキルを適用します。ユーザーは 1 つまたは複数の画像を ChatGPT に表示できます。ChatGPT はユーザーが問い合わせたい内容を認識し、冷蔵庫の中身を調べて食事の計画を立てたり、複雑な仕事関連のデータチャートを分析したりするなど、対応する応答を提供しようとします。

Foresight News によると、OpenAI は今後 2 週間以内に、Plus およびエンタープライズ ユーザー向けに ChatGPT に音声および画像会話機能を導入する予定です。音声会話機能は iOS および Android デバイスで利用可能になり、画像会話機能はすべてのプラットフォームでアクセス可能になります。
音声機能は、テキストと数秒のサンプル音声から人間のような音声を生成できる新しいテキスト読み上げモデルによってサポートされています。オープンソースの音声認識システム Whisper を使用して、話し言葉をテキストに書き起こし、回答を生成し、その回答を音声に変換してユーザーに再生します。画像機能は、マルチモーダル GPT-3.5 と GPT-4 を搭載しており、写真、スクリーンショット、テキストと画像を含むドキュメントなど、さまざまな画像に言語推論スキルを適用します。ユーザーは ChatGPT に 1 つ以上の画像を表示できます。ChatGPT は、冷蔵庫の中身を調べて食事を計画したり、複雑な仕事関連のデータ チャートを分析したりするなど、ユーザーが問い合わせたいコンテンツを認識し、対応する応答を提供します。

OpenAI、ChatGPT に音声と画像の会話機能を導入

最新ニュース