人工智能開發商 OpenAI 於十月份對其模型進行了幾次更新,幫助其 AI 模型進行更好的對話並提高圖像識別能力。

10 月 1 日,OpenAI 發佈了四個更新,引入了新工具,旨在讓開發人員更輕鬆地在其 AI 模型上進行構建。

它會說話!

一個主要更新是 Realtime API,它允許開發人員使用單個提示創建 AI 生成的語音應用程序。

該工具現已可供測試,通過流式音頻輸入和輸出支持低延遲、多模式體驗,實現類似於 ChatGPT 高級語音模式的自然對話。

以前,開發人員必須“拼湊”多個模型才能創造這些體驗。音頻輸入通常需要完全上傳和處理後才能收到響應,這意味着語音對話等實時應用的延遲更高。

藉助 Realtime API 的流式傳輸功能,開發人員現在可以實現即時、自然的交互,就像語音助手一樣。該 API 在 2024 年 5 月發佈的 GPT-4 上運行,可以實時推理音頻、視覺和文本。

人工智能現在可以看得很清楚

另一項更新包括一個供開發人員使用的微調工具,使他們能夠改進從圖像和文本輸入生成的 AI 響應。

據開發人員介紹,基於圖像的微調器使人工智能能夠更好地理解圖像,從而增強視覺搜索和物體檢測能力。該過程包括來自人類的反饋,人類會提供好與壞的響應示例。

除了語音和視覺更新之外,OpenAI 還推出了“模型蒸餾”和“及時緩存”,允許較小的模型從較大的模型中學習,並通過重複使用已經處理過的文本來減少開發成本和時間。

其模型的先進功能是一個關鍵賣點,因爲 OpenAI 的大部分收入來自於企業在 OpenAI 技術之上構建自己的應用程序。

據路透社報道,OpenAI 預計其明年的收入將從 2024 年的 37 億美元增至 116 億美元。

雜誌:人工智能可能已經比比特幣消耗更多的電力——並且威脅比特幣挖礦