OpenAI 的最新升级基本上让用户可以通过 ChatGPT 进行直播

ChatGPT 创建者 OpenAI 宣布了其最新的 AI 模型 GPT-4o，这是一个更健谈、更像人类的 AI 聊天机器人，可以解释用户的音频和视频并实时响应。
该公司发布的一系列演示展示了 GPT-4 Omni 如何帮助潜在用户进行面试准备（确保他们在面试中看起来体面）、致电客服人员获取替换 iPhone 以及实时翻译双语对话等。
演示表明，它可以分享老爸笑话，评判两个用户之间的石头剪刀布比赛，并在被问到时以讽刺的方式回应。其中一个演示甚至展示了 ChatGPT 第一次被介绍给用户的小狗。
“你好，Bowser！你是不是最可爱的小家伙？”聊天机器人惊呼道。
向 GPT-4o 问好，这是我们的新旗舰模型，它可以实时推理音频、视觉和文本：https://t.co/MYHZB79UqNText 和图像输入今天在 API 和 ChatGPT 中推出，语音和视频将在未来几周内推出。pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) 2024 年 5 月 13 日
该公司首席执行官萨姆·奥特曼 (Sam Altman) 在 5 月 13 日的一篇博客文章中表示：“它感觉就像电影里的人工智能；但它是真实的，这对我来说还是有点惊讶。”
“达到人类水平的反应时间和表现力将是一个巨大的改变。”
OpenAI 在最近的 X 帖子中表示，仅文本和图像输入版本于 5 月 13 日推出，完整版本将于未来几周推出。
GPT-4o 将向付费和免费 ChatGPT 用户开放，并可通过 ChatGPT 的 API 访问。
OpenAI 表示，GPT-4o 中的“o”代表“o​​mni”——这标志着向更自然的人机交互迈出了一步。
介绍 GPT-4o，我们的新模型可以实时推理文本、音频和视频。它用途极其广泛，玩起来很有趣，并且是朝着更自然的人机交互（甚至是人机交互）形式迈出的一步：pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) 2024 年 5 月 13 日
GPT-4o 能够同时处理任何文本、音频和图像输入，与 OpenAI 早期的 AI 工具（如 ChatGPT-4）相比，这是一个相当大的进步，因为 ChatGPT-4 在被迫进行多任务处理时往往会“丢失大量信息”。
相关：据报道，苹果与 OpenAI 达成 ChatGPT iPhone 集成协议
OpenAI 表示，“与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色”，甚至包括捕捉用户的情绪和呼吸模式。
它还比 OpenAI API 中的 GPT-4 Turbo“快得多”且“便宜 50%”。
OpenAI 声称，新的 AI 工具可以在短短 2.3 秒内响应音频输入，平均时间为 3.2 秒，这与人类在普通对话中的响应时间相似。
杂志：如何阻止人工智能末日：Uplift 作者 David Brin

OpenAI 的最新升级基本上让用户可以通过 ChatGPT 进行直播

创作者的更多内容

实时新闻

OpenAI 的最新升级基本上让用户可以通过 ChatGPT 进行直播

创作者的更多内容

实时新闻

热门文章