OpenAI 的 GPT-4o 能做什么？

OpenAI 周一发布了其最新旗舰模型 GPT-4o（“o” 代表“omni”），它似乎是我们迄今为止最接近钢铁侠电影中“贾维斯”的智能助手。
ChatGPT-4o 的卖点在于，它可以处理不同的模态，而大多数现有 AI 模型都无法做到这一点。这意味着 GPT-4o 可以接受并生成任意组合的文本、音频和图像请求。
该团队在 X（原 Twitter）上展示的阶段性演示非常令人印象深刻，许多人都大肆宣传。其中一大壮举是 GPT-4o 只需 232 毫秒即可响应音频输入，这与人类在对话过程中的响应时间相似。
OpenAI 首席执行官 Sam Altman 周一在一篇博文中写道：“感觉就像电影里的人工智能；但它是真实存在的，这对我来说还是有点令人惊讶。达到人类水平的响应时间和表现力是一个巨大的变化。”
OpenAI 已开始向用户推出 GPT-4o 的文本和图像功能。该公司表示，未来几周内，音频和视频功能将发布给“API 中的一小部分值得信赖的合作伙伴”。
尽管如此，您可以使用 ChatGPT-4o 模型做以下一些事情。
你可以用 GPT-4o 做的事情
创建带有清晰文本的图像
到目前为止，一些 AI 图像生成器（如 Midjourney）仍在努力制作带有可读文本的图像。OpenAI 表示，GPT-4o 现在对文本描述的理解要好得多，并且可以在图像上制作清晰易读的文字。
图片来源：OpenAI 实时翻译
在需要翻译的情况下，GPT-4o 可以充当翻译。在一段视频演示中，OpenAI 团队展示了 GPT-4o 可以将用英语说的话复述成西班牙语，或许是其他语言，然后再从西班牙语复述成英语。
使用 GPT-4o 进行实时翻译 pic.twitter.com/J1BsrxwYdE
— OpenAI (@OpenAI) 2024 年 5 月 13 日
观察并讲述
对于视力受损或只是为了好玩的人来说，ChatGPT-4o 可以通过手机摄像头查看并了解周围发生的事情。在一个案例中，当模型注意到房间里有蛋糕和蜡烛时，它就能知道某人正在庆祝生日。
@BeMyEyes 与 GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) 2024 年 5 月 13 日
解决数学问题
GPT-4o 还可以查看纸质或显示屏上的数学问题并给出答案。不仅如此，它还可以辅导和指导你学习如何解决问题。
GPT-4o 和 @khanacademy 的数学问题 pic.twitter.com/RfKaYx5pTJ
— OpenAI (@OpenAI) 2024 年 5 月 13 日
视觉会议中的人工智能
GPT-4o 可以加入视觉会议并与参与者进行对话。它还可以帮助用户准备求职面试会议。
使用 GPT-4o 了解 AI pic.twitter.com/rHkQ316MYj
— OpenAI (@OpenAI) 2024 年 5 月 13 日
创作者的更多内容

实时新闻

创作者的更多内容

实时新闻

热门文章