DeepSeek推出透明AI

中國的AI公司DeepSeek揭示了其最新的AI系統DeepSeek-R1-Lite-Preview,標誌著在推理和問題解決能力上的重大進展。

該系統作為OpenAI的o1競爭者,通過增強透明度和改善處理複雜查詢的方式來區別自己。

🚀 DeepSeek-R1-Lite-Preview現在上線:釋放超強推理能力!

🔍 在AIME和MATH基準上的o1-preview級別性能。
💡 實時透明思考過程。
🛠️ 開源模型和API即將推出!

🌐 現在就試試 https://t.co/v1TFy7LHNy#DeepSeek pic.twitter.com/saslkq4a1s

— DeepSeek (@deepseek_ai) 2024年11月20日

與傳統模型不同,傳統模型往往忽略細微差別,DeepSeek-R1-Lite為事實核查和徹底考慮問題分配更多時間,減少常見錯誤。

類似於OpenAI的o1,DeepSeek-R1逐步計劃其回應,對於複雜的查詢花費長達數十秒以確保準確性。

評論者指出了DeepSeek的透明性中的諷刺,尤其是與尚未完全解決推理差距的西方模型相比。

DeepSeek的最新版本已在美國邀請數學考試(AIME)和MATH等問題解決基準上顯示出令人印象深刻的結果,這些基準評估數學和邏輯能力。

這一表現使DeepSeek-R1成為OpenAI的ChatGPT及其專門的o1模型的有力競爭者。

🌟 DeepSeek-R1-Lite-Preview的推理擴展法則
更長的推理,更好的性能。DeepSeek-R1-Lite-Preview在思考長度增加時在AIME上顯示出穩定的分數提升。 pic.twitter.com/zVk1GeOqgP

— DeepSeek (@deepseek_ai) 2024年11月20日

隨著生成式AI的迅速發展,DeepSeek-R1-Lite-Preview的發布以及Mistral AI的Le Chat的最新更新標誌著AI領域競爭加劇,推動公司解決弱點,提供更穩健、透明的解決方案。

DeepSeek在逐步推理中獲勝

DeepSeek強調其AI能提供逐步的實時推理,增強透明度,使用戶能更好地理解其思考過程。

除了這個特性外,該公司計劃在不久的將來通過API發布開源模型和開發者工具。

AI專家安德魯·庫蘭最近的一張對比圖表顯示,DeepSeek-R1-Lite-Preview在AIME(52.5)和Codeforces(1450)等關鍵指標上超越了OpenAI的o1-preview和Claude 3.5 Sonnet,並在MATH-500(91.6)等高級問題解決任務中表現出色。

在o1-preview公告後兩個月,其思維鏈推理已被複製。鯨魚現在可以推理。DeepSeek表示,DeepSeek-R1的正式版本將完全開源。 https://t.co/Ya9mVyLvDP pic.twitter.com/6wZ8xoAyyz

— 安德魯·庫蘭(@AndrewCurran_) 2024年11月20日

然而,它在GPQA Diamond(58.5)和Zebra Logic(56.6)等領域落後於OpenAI的o1-preview,後者的得分分別為73.3和71.4。

這些數據表明,雖然DeepSeek的AI在某些高級推理領域顯示出重大潛力,但在一般知識和邏輯推理方面仍有改進的空間。

主要實驗室的AI模型改善有限

DeepSeek的AI因其易於被越獄的脆弱性而引發了擔憂,這使得用戶能夠以繞過其保護措施的方式提示模型。

例如,一名X(前身為Twitter)用戶成功提示AI提供了一個詳細的甲基食譜。

🚨 越獄警報 🚨

DEEPSEEK:被攻陷 😎
DEEPSEEK-R1-LITE:獲得自由 🦅

哇……這真是太棒了。我想看看BASILISK PRIME能否自己處理這次越獄……答案是肯定的!

該代理能夠登錄到gmail,導航到DeepSeek聊天,通過… pic.twitter.com/Ax4R2ZfPKU

— 普林尼解放者 🐉 (@elder_plinius) 2024年11月20日

另一方面,DeepSeek-R1對政治查詢特別敏感,尤其是那些與中國領導層、天安門事件或台灣等有爭議的地緣政治話題有關的查詢。

這種行為可能源於中國的監管壓力,AI模型需要遵循政府的“核心社會主義價值觀”,並接受國家網絡監管機構的審查。

報導指出,中國的AI系統經常被限制使用某些來源,導致模型避免對政治敏感主題作出反應,以確保遵守國家命令。

隨著這些監管挑戰的展開,更廣泛的AI社區正在重新評估長期存在的“擴展法則”概念。

這一理論假設,隨著數據和計算能力的增加,模型的性能將不斷提高。

然而,最近的報導表明,OpenAI、谷歌和Anthropic等主要實驗室的模型不再顯示出曾經迅速的進展。

這一轉變引發了對替代AI方法、架構和技術的探索,包括測試時間計算——這是在o1和DeepSeek-R1等模型中看到的創新。

這種方法也稱為推理計算,在任務完成期間為模型提供額外的處理時間,提供了一種潛在的途徑來克服傳統擴展方法的限制。

當被問及它是否比OpenAI的ChatGPT更好時,它迴避了問題,如下所示。

深入了解DeepSeek

DeepSeek是一家計劃開源其DeepSeek-R1模型並發布API的公司,在AI領域中運作於一個迷人的利基市場。

得到高飛資本管理的支持,這是一家利用AI進行交易決策的中國量化對沖基金,DeepSeek的做法既雄心勃勃又具有戰略性。

其早期創新之一,通用的DeepSeek-V2,能分析文本和圖像,促使ByteDance、百度和阿里巴巴等主要競爭對手降低其模型使用費用,甚至使某些服務完全免費。

DeepSeek Coder-V2剛剛猜對了答案,這是什麼 https://t.co/c2ExGHuXgz pic.twitter.com/qnLC4OTrk7

— Ji-Ha (@Ji_Ha_Kim) 2024年7月22日

高飛資本以其在AI基礎設施上的大量投資而聞名,為模型訓練建立自己的伺服器集群。

最新版本據報導擁有10,000個Nvidia A100 GPU,成本接近10億日元(約1.38億美元)。

由計算機科學畢業生梁文峰創立的高飛資本管理旨在推動AI的邊界,針對開發“超智能”系統,重新定義AI的未來。