Odaily Planet Daily News OpenAI は、音声、視覚、テキストをリアルタイムで推論できる最新のフラッグシップ モデル GPT-4o をリリースしました。その主なコンセプトは、擬人化された超自然的な超低遅延のパーソナル音声インタラクティブ アシスタントです。 OpenAI の公式 Web サイトおよび OpenAI の公式アカウントに関連する情報によると、テキスト、オーディオ、画像出力の任意の組み合わせを生成します。音声入力には 232 ミリ秒 (平均 320 ミリ秒) で応答できます。これは人間の会話時の反応時間と同様です。英語およびコードでは GPT-4 Turbo と同等のパフォーマンスを発揮し、英語以外の言語テキストが大幅に改善されていると同時に、より高速で 50% 安価な API を備えています。 GPT-4o は、既存のモデルと比較して、視覚と音声の理解において特に優れたパフォーマンスを発揮します。テキストと画像の入力は本日 API と ChatGPT に展開され、音声とビデオの入力は今後数週間以内に提供される予定です。
原文参照
OpenAI が最新のフラッグシップ モデル GPT4o をリリース、ChatGPT が人間とコンピュータの対話の新たな段階に入る
![](https://public.bnbstatic.com/image/pgc/202211/a485daf7f97e8cc6693e45beb9b09d32.jpg)
--・542 views
免責事項:第三者の意見を含みます。当社による財務上の助言ではありません。スポンサーのコンテンツが含まれる場合があります。 利用規約をご覧ください。
0
返信 1