Odaily Planet Daily News OpenAI は、音声、視覚、テキストをリアルタイムで推論できる最新のフラッグシップ モデル GPT-4o をリリースしました。その主なコンセプトは、擬人化された超自然的な超低遅延のパーソナル音声インタラクティブ アシスタントです。 OpenAI の公式 Web サイトおよび OpenAI の公式アカウントに関連する情報によると、テキスト、オーディオ、画像出力の任意の組み合わせを生成します。音声入力には 232 ミリ秒 (平均 320 ミリ秒) で応答できます。これは人間の会話時の反応時間と同様です。英語およびコードでは GPT-4 Turbo と同等のパフォーマンスを発揮し、英語以外の言語テキストが大幅に改善されていると同時に、より高速で 50% 安価な API を備えています。 GPT-4o は、既存のモデルと比較して、視覚と音声の理解において特に優れたパフォーマンスを発揮します。テキストと画像の入力は本日 API と ChatGPT に展開され、音声とビデオの入力は今後数週間以内に提供される予定です。