OpenAI 的最新升級基本上讓用戶可以通過 ChatGPT 進行直播

ChatGPT 創建者 OpenAI 宣佈了其最新的 AI 模型 GPT-4o，這是一個更健談、更像人類的 AI 聊天機器人，可以解釋用戶的音頻和視頻並實時響應。
該公司發佈的一系列演示展示了 GPT-4 Omni 如何幫助潛在用戶進行面試準備（確保他們在面試中看起來體面）、致電客服人員獲取替換 iPhone 以及實時翻譯雙語對話等。
演示表明，它可以分享老爸笑話，評判兩個用戶之間的石頭剪刀布比賽，並在被問到時以諷刺的方式迴應。其中一個演示甚至展示了 ChatGPT 第一次被介紹給用戶的小狗。
“你好，Bowser！你是不是最可愛的小傢伙？”聊天機器人驚呼道。
向 GPT-4o 問好，這是我們的新旗艦模型，它可以實時推理音頻、視覺和文本：https://t.co/MYHZB79UqNText 和圖像輸入今天在 API 和 ChatGPT 中推出，語音和視頻將在未來幾周內推出。pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) 2024 年 5 月 13 日
該公司首席執行官薩姆·奧特曼 (Sam Altman) 在 5 月 13 日的一篇博客文章中表示：“它感覺就像電影裏的人工智能；但它是真實的，這對我來說還是有點驚訝。”
“達到人類水平的反應時間和表現力將是一個巨大的改變。”
OpenAI 在最近的 X 帖子中表示，僅文本和圖像輸入版本於 5 月 13 日推出，完整版本將於未來幾周推出。
GPT-4o 將向付費和免費 ChatGPT 用戶開放，並可通過 ChatGPT 的 API 訪問。
OpenAI 表示，GPT-4o 中的“o”代表“o​​mni”——這標誌着向更自然的人機交互邁出了一步。
介紹 GPT-4o，我們的新模型可以實時推理文本、音頻和視頻。它用途極其廣泛，玩起來很有趣，並且是朝着更自然的人機交互（甚至是人機交互）形式邁出的一步：pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) 2024 年 5 月 13 日
GPT-4o 能夠同時處理任何文本、音頻和圖像輸入，與 OpenAI 早期的 AI 工具（如 ChatGPT-4）相比，這是一個相當大的進步，因爲 ChatGPT-4 在被迫進行多任務處理時往往會“丟失大量信息”。
相關：據報道，蘋果與 OpenAI 達成 ChatGPT iPhone 集成協議
OpenAI 表示，“與現有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色”，甚至包括捕捉用戶的情緒和呼吸模式。
它還比 OpenAI API 中的 GPT-4 Turbo“快得多”且“便宜 50%”。
OpenAI 聲稱，新的 AI 工具可以在短短 2.3 秒內響應音頻輸入，平均時間爲 3.2 秒，這與人類在普通對話中的響應時間相似。
雜誌：如何阻止人工智能末日：Uplift 作者 David Brin

OpenAI 的最新升級基本上讓用戶可以通過 ChatGPT 進行直播

創作者的更多內容

實時新聞

OpenAI 的最新升級基本上讓用戶可以通過 ChatGPT 進行直播

創作者的更多內容

實時新聞

熱門文章