OpenAI 週一發佈了其最新旗艦模型 GPT-4o(“o” 代表“omni”),它似乎是我們迄今爲止最接近鋼鐵俠電影中“賈維斯”的智能助手。

ChatGPT-4o 的賣點在於,它可以處理不同的模態,而大多數現有 AI 模型都無法做到這一點。這意味着 GPT-4o 可以接受並生成任意組合的文本、音頻和圖像請求。

該團隊在 X(原 Twitter)上展示的階段性演示非常令人印象深刻,許多人都大肆宣傳。其中一大壯舉是 GPT-4o 只需 232 毫秒即可響應音頻輸入,這與人類在對話過程中的響應時間相似。

OpenAI 首席執行官 Sam Altman 週一在一篇博文中寫道:“感覺就像電影裏的人工智能;但它是真實存在的,這對我來說還是有點令人驚訝。達到人類水平的響應時間和表現力是一個巨大的變化。”

OpenAI 已開始向用戶推出 GPT-4o 的文本和圖像功能。該公司表示,未來幾周內,音頻和視頻功能將發佈給“API 中的一小部分值得信賴的合作伙伴”。

儘管如此,您可以使用 ChatGPT-4o 模型做以下一些事情。

你可以用 GPT-4o 做的事情

創建帶有清晰文本的圖像

到目前爲止,一些 AI 圖像生成器(如 Midjourney)仍在努力製作帶有可讀文本的圖像。OpenAI 表示,GPT-4o 現在對文本描述的理解要好得多,並且可以在圖像上製作清晰易讀的文字。

圖片來源:OpenAI 實時翻譯

在需要翻譯的情況下,GPT-4o 可以充當翻譯。在一段視頻演示中,OpenAI 團隊展示了 GPT-4o 可以將用英語說的話複述成西班牙語,或許是其他語言,然後再從西班牙語複述成英語。

使用 GPT-4o 進行實時翻譯 pic.twitter.com/J1BsrxwYdE

— OpenAI (@OpenAI) 2024 年 5 月 13 日

觀察並講述

對於視力受損或只是爲了好玩的人來說,ChatGPT-4o 可以通過手機攝像頭查看並瞭解周圍發生的事情。在一個案例中,當模型注意到房間裏有蛋糕和蠟燭時,它就能知道某人正在慶祝生日。

@BeMyEyes 與 GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) 2024 年 5 月 13 日

解決數學問題

GPT-4o 還可以查看紙質或顯示屏上的數學問題並給出答案。不僅如此,它還可以輔導和指導你學習如何解決問題。

GPT-4o 和 @khanacademy 的數學問題 pic.twitter.com/RfKaYx5pTJ

— OpenAI (@OpenAI) 2024 年 5 月 13 日

視覺會議中的人工智能

GPT-4o 可以加入視覺會議並與參與者進行對話。它還可以幫助用戶準備求職面試會議。

使用 GPT-4o 瞭解 AI pic.twitter.com/rHkQ316MYj

— OpenAI (@OpenAI) 2024 年 5 月 13 日