OpenAI 的新更新增強了 AI 的語音和視覺功能

人工智能開發商 OpenAI 於十月份對其模型進行了幾次更新，幫助其 AI 模型進行更好的對話並提高圖像識別能力。
10 月 1 日，OpenAI 發佈了四個更新，引入了新工具，旨在讓開發人員更輕鬆地在其 AI 模型上進行構建。
它會說話！
一個主要更新是 Realtime API，它允許開發人員使用單個提示創建 AI 生成的語音應用程序。
該工具現已可供測試，通過流式音頻輸入和輸出支持低延遲、多模式體驗，實現類似於 ChatGPT 高級語音模式的自然對話。
以前，開發人員必須“拼湊”多個模型才能創造這些體驗。音頻輸入通常需要完全上傳和處理後才能收到響應，這意味着語音對話等實時應用的延遲更高。
藉助 Realtime API 的流式傳輸功能，開發人員現在可以實現即時、自然的交互，就像語音助手一樣。該 API 在 2024 年 5 月發佈的 GPT-4 上運行，可以實時推理音頻、視覺和文本。
人工智能現在可以看得很清楚
另一項更新包括一個供開發人員使用的微調工具，使他們能夠改進從圖像和文本輸入生成的 AI 響應。
據開發人員介紹，基於圖像的微調器使人工智能能夠更好地理解圖像，從而增強視覺搜索和物體檢測能力。該過程包括來自人類的反饋，人類會提供好與壞的響應示例。
除了語音和視覺更新之外，OpenAI 還推出了“模型蒸餾”和“及時緩存”，允許較小的模型從較大的模型中學習，並通過重複使用已經處理過的文本來減少開發成本和時間。
其模型的先進功能是一個關鍵賣點，因爲 OpenAI 的大部分收入來自於企業在 OpenAI 技術之上構建自己的應用程序。
據路透社報道，OpenAI 預計其明年的收入將從 2024 年的 37 億美元增至 116 億美元。
雜誌：人工智能可能已經比比特幣消耗更多的電力——並且威脅比特幣挖礦

OpenAI 的新更新增強了 AI 的語音和視覺功能

創作者的更多內容

實時新聞

OpenAI 的新更新增強了 AI 的語音和視覺功能

創作者的更多內容

實時新聞

熱門文章