ChatGPT 创建者 OpenAI 宣布了其最新的 AI 模型 GPT-4o,这是一个更健谈、更像人类的 AI 聊天机器人,可以解释用户的音频和视频并实时响应。

该公司发布的一系列演示展示了 GPT-4 Omni 如何帮助潜在用户进行面试准备(确保他们在面试中看起来体面)、致电客服人员获取替换 iPhone 以及实时翻译双语对话等。

演示表明,它可以分享老爸笑话,评判两个用户之间的石头剪刀布比赛,并在被问到时以讽刺的方式回应。其中一个演示甚至展示了 ChatGPT 第一次被介绍给用户的小狗。

“你好,Bowser!你是不是最可爱的小家伙?”聊天机器人惊呼道。

向 GPT-4o 问好,这是我们的新旗舰模型,它可以实时推理音频、视觉和文本:https://t.co/MYHZB79UqNText 和图像输入今天在 API 和 ChatGPT 中推出,语音和视频将在未来几周内推出。pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 2024 年 5 月 13 日

该公司首席执行官萨姆·奥特曼 (Sam Altman) 在 5 月 13 日的一篇博客文章中表示:“它感觉就像电影里的人工智能;但它是真实的,这对我来说还是有点惊讶。”

“达到人类水平的反应时间和表现力将是一个巨大的改变。”

OpenAI 在最近的 X 帖子中表示,仅文本和图像输入版本于 5 月 13 日推出,完整版本将于未来几周推出。

GPT-4o 将向付费和免费 ChatGPT 用户开放,并可通过 ChatGPT 的 API 访问。

OpenAI 表示,GPT-4o 中的“o”代表“o​​mni”——这标志着向更自然的人机交互迈出了一步。

介绍 GPT-4o,我们的新模型可以实时推理文本、音频和视频。它用途极其广泛,玩起来很有趣,并且是朝着更自然的人机交互(甚至是人机交互)形式迈出的一步:pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) 2024 年 5 月 13 日

GPT-4o 能够同时处理任何文本、音频和图像输入,与 OpenAI 早期的 AI 工具(如 ChatGPT-4)相比,这是一个相当大的进步,因为 ChatGPT-4 在被迫进行多任务处理时往往会“丢失大量信息”。

相关:据报道,苹果与 OpenAI 达成 ChatGPT iPhone 集成协议

OpenAI 表示,“与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色”,甚至包括捕捉用户的情绪和呼吸模式。

它还比 OpenAI API 中的 GPT-4 Turbo“快得多”且“便宜 50%”。

OpenAI 声称,新的 AI 工具可以在短短 2.3 秒内响应音频输入,平均时间为 3.2 秒,这与人类在普通对话中的响应时间相似。

杂志:如何阻止人工智能末日:Uplift 作者 David Brin