OpenAI 周一发布了其最新旗舰模型 GPT-4o(“o” 代表“omni”),它似乎是我们迄今为止最接近钢铁侠电影中“贾维斯”的智能助手。

ChatGPT-4o 的卖点在于,它可以处理不同的模态,而大多数现有 AI 模型都无法做到这一点。这意味着 GPT-4o 可以接受并生成任意组合的文本、音频和图像请求。

该团队在 X(原 Twitter)上展示的阶段性演示非常令人印象深刻,许多人都大肆宣传。其中一大壮举是 GPT-4o 只需 232 毫秒即可响应音频输入,这与人类在对话过程中的响应时间相似。

OpenAI 首席执行官 Sam Altman 周一在一篇博文中写道:“感觉就像电影里的人工智能;但它是真实存在的,这对我来说还是有点令人惊讶。达到人类水平的响应时间和表现力是一个巨大的变化。”

OpenAI 已开始向用户推出 GPT-4o 的文本和图像功能。该公司表示,未来几周内,音频和视频功能将发布给“API 中的一小部分值得信赖的合作伙伴”。

尽管如此,您可以使用 ChatGPT-4o 模型做以下一些事情。

你可以用 GPT-4o 做的事情

创建带有清晰文本的图像

到目前为止,一些 AI 图像生成器(如 Midjourney)仍在努力制作带有可读文本的图像。OpenAI 表示,GPT-4o 现在对文本描述的理解要好得多,并且可以在图像上制作清晰易读的文字。

图片来源:OpenAI 实时翻译

在需要翻译的情况下,GPT-4o 可以充当翻译。在一段视频演示中,OpenAI 团队展示了 GPT-4o 可以将用英语说的话复述成西班牙语,或许是其他语言,然后再从西班牙语复述成英语。

使用 GPT-4o 进行实时翻译 pic.twitter.com/J1BsrxwYdE

— OpenAI (@OpenAI) 2024 年 5 月 13 日

观察并讲述

对于视力受损或只是为了好玩的人来说,ChatGPT-4o 可以通过手机摄像头查看并了解周围发生的事情。在一个案例中,当模型注意到房间里有蛋糕和蜡烛时,它就能知道某人正在庆祝生日。

@BeMyEyes 与 GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) 2024 年 5 月 13 日

解决数学问题

GPT-4o 还可以查看纸质或显示屏上的数学问题并给出答案。不仅如此,它还可以辅导和指导你学习如何解决问题。

GPT-4o 和 @khanacademy 的数学问题 pic.twitter.com/RfKaYx5pTJ

— OpenAI (@OpenAI) 2024 年 5 月 13 日

视觉会议中的人工智能

GPT-4o 可以加入视觉会议并与参与者进行对话。它还可以帮助用户准备求职面试会议。

使用 GPT-4o 了解 AI pic.twitter.com/rHkQ316MYj

— OpenAI (@OpenAI) 2024 年 5 月 13 日