根据 Foresight News 报导,OpenAI 计划在未来两周内在 ChatGPT 中为 Plus 和企业用户引入语音和图像对话功能。语音对话功能将在 iOS 和 Android 装置上可用,而影像对话功能将在所有平台上可用。
语音功能由新的文字转语音模型支持,该模型可以从文字和几秒钟的样本语音生成类似人类的音讯。它使用开源语音识别系统 Whisper 将口语转录为文本,产生答案,然后将答案转换回语音以供用户播放。图像功能由多模态 GPT-3.5 和 GPT-4 提供支持,将语言推理技能应用于各种图像,例如照片、萤幕截图以及包含文字和图像的文件。使用者可以向ChatGPT展示一张或多张图像,ChatGPT将尝试识别使用者想要查询的内容并提供相应的回应,例如探索冰箱中的内容来规划膳食或分析复杂的与工作相关的资料图表。