根據 Foresight News 報導,OpenAI 計劃在未來兩週內在 ChatGPT 中為 Plus 和企業用戶引入語音和圖像對話功能。語音對話功能將在 iOS 和 Android 裝置上可用,而影像對話功能將在所有平台上可用。

語音功能由新的文字轉語音模型支持,該模型可以從文字和幾秒鐘的樣本語音生成類似人類的音訊。它使用開源語音識別系統 Whisper 將口語轉錄為文本,產生答案,然後將答案轉換回語音以供用戶播放。圖像功能由多模態 GPT-3.5 和 GPT-4 提供支持,將語言推理技能應用於各種圖像,例如照片、螢幕截圖以及包含文字和圖像的文件。使用者可以向ChatGPT展示一張或多張圖像,ChatGPT將嘗試識別使用者想要查詢的內容並提供相應的回應,例如探索冰箱中的內容來規劃膳食或分析複雜的與工作相關的資料圖表。