隨著 AI 領域競爭的加劇,中國零售巨頭阿里巴巴推出了其 QwQ-32B-Preview,據報導其性能超過了 OpenAI 的 o1 系列。
最新模型據報導在一些特定基準上超過了 OpenAI 的 o1-preview 和 o1-mini 模型,例如 AIME 和 MATH 測試,這些測試評估 AI 模型在邏輯謎題和數學問題中的表現。
阿里巴巴已經發布了 QwQ-32B-Preview 供下載。
根據這家零售巨頭的說法,阿里巴巴的新模型能夠解決比正常的大型語言模型(LLMs)如 ChatGPT-4 和 Claude 3.5 更複雜和精細的問題。
Benzinga 的一篇文章指出,QwQ-32B-Preview 是少數幾個可在寬鬆許可下獲得的模型之一,使得用戶可以下載和使用。該模型現在可在 AI 開發平台 Hugging Face 上獲得。
然而,阿里巴巴發布了模型的某些組件以限制模型的完全複製或對其運作的洞察。
阿里巴巴的最新模型擁有 325 億個參數,使其能夠處理最多 32000 字的提示。憑藉模型的顯著能力和半開放的可訪問性,阿里巴巴的新參與者為 AI 推理技術的變革性飛躍奠定了基礎。
阿里巴巴的透明公告突顯了其模型的複雜性,而 OpenAI 則保持其參數計數的保密。
這個模型的到來正值 OpenAI 在 AI 領域取得重大進展之際。去年十月,OpenAI 的估值在一次成功的融資後飆升至 1570 億美元。
本週早些時候,軟銀集團 SFTBF 據報導通過 15 億美元的員工股份回購增加了對 ChatGPT 製造商的持股。
據說 OpenAI 也在探索開發自己的瀏覽器,以挑戰 Alphabet 的子公司 Google Chrome 瀏覽器,此舉是因為美國司法部的壓力要求其剝離。
阿里巴巴也承認該模型存在缺陷
雖然它擁有一些獨特的優勢,但新模型也有其局限性。根據該團體的說法,QwQ-32B-Preview 存在意外的語言切換等問題,這可能會使用戶感到困惑。該模型在需要常識推理的任務中表現不佳,這在許多 AI 系統中是常見的。
根據 AutoGPT 的說法,該模型可能會陷入邏輯循環,延遲回應。
儘管存在缺陷,其推理能力使其能夠自我事實檢查,因此減少錯誤但增加解決時間。
通過推理任務和計劃步驟,阿里巴巴的模型避免了一些影響傳統 AI 系統的陷阱。但這種方法需要額外的時間,這可能限制了實時應用。
根據 Benzinga 的報導,QwQ-32B-Preview 的回應符合中國的監管標準,避免了政治敏感話題。
例如,像台灣這樣的政治敏感話題將給出與中國政府立場一致的回應。
此外,對於像天安門廣場這樣的事件的提示不會產生任何回應,顯示出該模型的謹慎設計。
雖然這對中國市場來說可能是理想的,但也可能限制其在全球市場上的吸引力。然而,該模型是在推理 AI 世界中的一個重要步驟。雖然其局限性可能會縮小其全球吸引力,但其邏輯和半開放性等其他組件使其成為 OpenAI 的一個強大競爭者。
根據 AutoGPT 的說法,QwQ-32B-Preview 突顯了這一激動人心的前沿的潛力和挑戰,全球的 AI 實驗室正在努力完善推理技術。
從零到 Web3 專業:您的 90 天職業啟動計劃