Foresight News によると、OpenAI は今後 2 週間以内に、Plus およびエンタープライズ ユーザー向けに ChatGPT に音声および画像会話機能を導入する予定です。音声会話機能は iOS および Android デバイスで利用可能になり、画像会話機能はすべてのプラットフォームでアクセス可能になります。
音声機能は、テキストと数秒のサンプル音声から人間のような音声を生成できる新しいテキスト読み上げモデルによってサポートされています。オープンソースの音声認識システム Whisper を使用して、話し言葉をテキストに書き起こし、回答を生成し、その回答を音声に変換してユーザーに再生します。画像機能は、マルチモーダル GPT-3.5 と GPT-4 を搭載しており、写真、スクリーンショット、テキストと画像を含むドキュメントなど、さまざまな画像に言語推論スキルを適用します。ユーザーは ChatGPT に 1 つ以上の画像を表示できます。ChatGPT は、冷蔵庫の中身を調べて食事を計画したり、複雑な仕事関連のデータ チャートを分析したりするなど、ユーザーが問い合わせたいコンテンツを認識し、対応する応答を提供します。