OpenAI宣布从当地时间2024年12月5日开始将进行为期12天(每个工作日一场)的新品发布或演示活动。虽然目前还不能确切知道每场发布会的具体内容,但根据多方消息和推测,可能包含以下内容:

一、文字转视频工具Sora的公开发布

Sora是OpenAI年初公开的新产品,一直处于邀请内测的状态。公司的前首席技术官米拉·穆拉蒂曾表示,Sora可能会在年底向用户公开,所以在这12场发布会中,Sora公开发布的可能性很大 1 ​。在人工智能领域,文字转视频技术是一个非常热门的研究方向。例如,谷歌也推出了其最新的生成式人工智能视频模型Veo。Sora的发布将为用户提供新的内容创作方式,比如用户可以输入一段故事脚本,Sora就能生成相应的视频内容,这在影视制作、广告创作、教育视频制作等领域有着广泛的应用前景。

二、一款新的推理模型

据TheVerge等媒体报道,新产品中包含一款新的推理模型,这可能是o1模型的完全体等类似的新推理AI模型。推理能力在人工智能中至关重要,例如在处理复杂科学和数学问题、进行逻辑分析等方面。之前OpenAI就有计划推出专注于推理的模型,像之前被提到的“草莓”模型也是专注于推理的AI产品。新的推理模型可能会在处理复杂任务时表现得更加高效准确,有助于提升OpenAI在AI推理领域的竞争力,也可能会被应用在医疗、科研等需要进行复杂逻辑推理的场景中 13 ​ 14 ​ 15 ​。

三、ChatGPT语音模式的新语音和功能改进

1. 新语音

OpenAI可能会给ChatGPT语音模式增加一个特殊语音(有消息称可能是圣诞老人语音),已经有用户在代码里发现语音模式的按钮可以变成雪花的形状,这可能是新语音相关的暗示。新语音的加入可以为用户提供更多样化的交互体验,比如在特定节日或主题场景下,特殊语音可以增加趣味性和沉浸感。

2. 功能改进

ChatGPT的高级语音模式存在进步的空间,可能会实现接入互联网实时搜索,以及与摄像头连接对现实世界进行分析。如果实现接入互联网实时搜索,ChatGPT就能提供更及时准确的信息,不再局限于之前训练数据中的知识;与摄像头连接分析现实世界则可以拓展其在物联网、智能家居等场景中的应用,例如识别室内环境状况、进行安防监控等 13 ​ 14 ​ 15 ​。

四、其他潜在发布内容

1. GPT - 4o模型的图像生成功能解锁

GPT - 4o模型一直被锁定的图像生成功能,曾在早期演示中展现出令人印象深刻的效果和生成控制能力,这个模型也有原生的视频分析能力。如果图像生成功能被解锁,那么GPT - 4o将在多媒体内容生成方面有更全面的能力,用户可以利用其进行图像创作、设计等工作。

2. o2模型或GPT - 5o的预览

网友们对o2模型或GPT - 5o的预览充满期待。如果在发布会上能看到相关预览,将让用户和开发者提前了解OpenAI未来模型的发展方向,可能会涉及到模型在架构、性能提升、新功能等方面的信息,也会对行业发展趋势产生一定的引导作用。

3. 文本转语音工具和代号为“操作员”的AI代理框架提前亮相

OpenAI的文本转语音工具和代号为“操作员”的AI代理框架虽然预期要到明年发布,但也有可能在未来两周内亮相。文本转语音工具可以在语音交互、有声读物制作等领域发挥作用;AI代理框架则有助于构建更智能、高效的人工智能代理,可应用在智能客服、自动化流程管理等方面 。

$IOTX