OpenAI 的 GPT-4o 能做什麼？

OpenAI 週一發佈了其最新旗艦模型 GPT-4o（“o” 代表“omni”），它似乎是我們迄今爲止最接近鋼鐵俠電影中“賈維斯”的智能助手。
ChatGPT-4o 的賣點在於，它可以處理不同的模態，而大多數現有 AI 模型都無法做到這一點。這意味着 GPT-4o 可以接受並生成任意組合的文本、音頻和圖像請求。
該團隊在 X（原 Twitter）上展示的階段性演示非常令人印象深刻，許多人都大肆宣傳。其中一大壯舉是 GPT-4o 只需 232 毫秒即可響應音頻輸入，這與人類在對話過程中的響應時間相似。
OpenAI 首席執行官 Sam Altman 週一在一篇博文中寫道：“感覺就像電影裏的人工智能；但它是真實存在的，這對我來說還是有點令人驚訝。達到人類水平的響應時間和表現力是一個巨大的變化。”
OpenAI 已開始向用戶推出 GPT-4o 的文本和圖像功能。該公司表示，未來幾周內，音頻和視頻功能將發佈給“API 中的一小部分值得信賴的合作伙伴”。
儘管如此，您可以使用 ChatGPT-4o 模型做以下一些事情。
你可以用 GPT-4o 做的事情
創建帶有清晰文本的圖像
到目前爲止，一些 AI 圖像生成器（如 Midjourney）仍在努力製作帶有可讀文本的圖像。OpenAI 表示，GPT-4o 現在對文本描述的理解要好得多，並且可以在圖像上製作清晰易讀的文字。
圖片來源：OpenAI 實時翻譯
在需要翻譯的情況下，GPT-4o 可以充當翻譯。在一段視頻演示中，OpenAI 團隊展示了 GPT-4o 可以將用英語說的話複述成西班牙語，或許是其他語言，然後再從西班牙語複述成英語。
使用 GPT-4o 進行實時翻譯 pic.twitter.com/J1BsrxwYdE
— OpenAI (@OpenAI) 2024 年 5 月 13 日
觀察並講述
對於視力受損或只是爲了好玩的人來說，ChatGPT-4o 可以通過手機攝像頭查看並瞭解周圍發生的事情。在一個案例中，當模型注意到房間裏有蛋糕和蠟燭時，它就能知道某人正在慶祝生日。
@BeMyEyes 與 GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) 2024 年 5 月 13 日
解決數學問題
GPT-4o 還可以查看紙質或顯示屏上的數學問題並給出答案。不僅如此，它還可以輔導和指導你學習如何解決問題。
GPT-4o 和 @khanacademy 的數學問題 pic.twitter.com/RfKaYx5pTJ
— OpenAI (@OpenAI) 2024 年 5 月 13 日
視覺會議中的人工智能
GPT-4o 可以加入視覺會議並與參與者進行對話。它還可以幫助用戶準備求職面試會議。
使用 GPT-4o 瞭解 AI pic.twitter.com/rHkQ316MYj
— OpenAI (@OpenAI) 2024 年 5 月 13 日
OpenAI 的 GPT-4o 能做什麼？

創作者的更多內容

實時新聞

OpenAI 的 GPT-4o 能做什麼？

創作者的更多內容

實時新聞

熱門文章