ChatGPT 創建者 OpenAI 宣佈了其最新的 AI 模型 GPT-4o,這是一個更健談、更像人類的 AI 聊天機器人,可以解釋用戶的音頻和視頻並實時響應。

該公司發佈的一系列演示展示了 GPT-4 Omni 如何幫助潛在用戶進行面試準備(確保他們在面試中看起來體面)、致電客服人員獲取替換 iPhone 以及實時翻譯雙語對話等。

演示表明,它可以分享老爸笑話,評判兩個用戶之間的石頭剪刀布比賽,並在被問到時以諷刺的方式迴應。其中一個演示甚至展示了 ChatGPT 第一次被介紹給用戶的小狗。

“你好,Bowser!你是不是最可愛的小傢伙?”聊天機器人驚呼道。

向 GPT-4o 問好,這是我們的新旗艦模型,它可以實時推理音頻、視覺和文本:https://t.co/MYHZB79UqNText 和圖像輸入今天在 API 和 ChatGPT 中推出,語音和視頻將在未來幾周內推出。pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 2024 年 5 月 13 日

該公司首席執行官薩姆·奧特曼 (Sam Altman) 在 5 月 13 日的一篇博客文章中表示:“它感覺就像電影裏的人工智能;但它是真實的,這對我來說還是有點驚訝。”

“達到人類水平的反應時間和表現力將是一個巨大的改變。”

OpenAI 在最近的 X 帖子中表示,僅文本和圖像輸入版本於 5 月 13 日推出,完整版本將於未來幾周推出。

GPT-4o 將向付費和免費 ChatGPT 用戶開放,並可通過 ChatGPT 的 API 訪問。

OpenAI 表示,GPT-4o 中的“o”代表“o​​mni”——這標誌着向更自然的人機交互邁出了一步。

介紹 GPT-4o,我們的新模型可以實時推理文本、音頻和視頻。它用途極其廣泛,玩起來很有趣,並且是朝着更自然的人機交互(甚至是人機交互)形式邁出的一步:pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) 2024 年 5 月 13 日

GPT-4o 能夠同時處理任何文本、音頻和圖像輸入,與 OpenAI 早期的 AI 工具(如 ChatGPT-4)相比,這是一個相當大的進步,因爲 ChatGPT-4 在被迫進行多任務處理時往往會“丟失大量信息”。

相關:據報道,蘋果與 OpenAI 達成 ChatGPT iPhone 集成協議

OpenAI 表示,“與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色”,甚至包括捕捉用戶的情緒和呼吸模式。

它還比 OpenAI API 中的 GPT-4 Turbo“快得多”且“便宜 50%”。

OpenAI 聲稱,新的 AI 工具可以在短短 2.3 秒內響應音頻輸入,平均時間爲 3.2 秒,這與人類在普通對話中的響應時間相似。

雜誌:如何阻止人工智能末日:Uplift 作者 David Brin