コインテレグラフによると、人工知能開発企業OpenAIは10月初旬、会話能力と画像認識能力の向上を目的としたモデルへの複数のアップデートを導入した。10月1日、OpenAIは開発者がAIモデルを構築しやすくするために設計された4つの新しいツールを発表した。

重要なアップデートの 1 つは Realtime API です。これにより、開発者は単一のプロンプトを使用して AI 生成の音声アプリケーションを作成できます。このツールは、オーディオ入力と出力をストリーミングすることで低遅延のマルチモーダル エクスペリエンスをサポートし、ChatGPT の高度な音声モードと同様の自然な会話を可能にします。以前は、開発者はこれらのエクスペリエンスを実現するために複数のモデルを組み合わせる必要があり、音声対音声の会話などのリアルタイム アプリケーションの遅延が高くなっていました。Realtime API のストリーミング機能により、開発者は音声アシスタントのように即時の自然な対話を実現できるようになりました。この API は、2024 年 5 月にリリースされた GPT-4 上で動作し、音声、視覚、テキストをリアルタイムで推論できます。

もう 1 つのアップデートには、開発者向けの微調整ツールが含まれており、画像やテキスト入力から生成される AI 応答を強化できます。画像ベースの微調整ツールは、AI の画像理解能力を向上させ、視覚検索とオブジェクト検出機能を強化します。このプロセスには、良い応答と悪い応答の例が AI に提供される人間によるフィードバックが含まれます。さらに、OpenAI は「モデル蒸留」と「プロンプト キャッシング」を導入しました。これにより、小さなモデルが大きなモデルから学習し、すでに処理されたテキストを再利用することで開発コストと時間を削減できます。

OpenAI のモデルの高度な機能は大きなセールスポイントであり、同社の収益のかなりの部分は、OpenAI の技術をベースに独自のアプリケーションを構築する企業から得られている。ロイター通信によると、OpenAI は収益が 2024 年の推定 37 億ドルから来年は 116 億ドルに増加すると予測している。