DeepSeek推出透明AI
中国的AI公司DeepSeek揭示了其最新的AI系统DeepSeek-R1-Lite-Preview,标志著在推理和问题解决能力上的重大进展。
该系统作为OpenAI的o1竞争者,通过增强透明度和改善处理复杂查询的方式来区别自己。
🚀 DeepSeek-R1-Lite-Preview现在上线:释放超强推理能力!
🔍 在AIME和MATH基准上的o1-preview级别性能。
💡 实时透明思考过程。
🛠️ 开源模型和API即将推出!
🌐 现在就试试 https://t.co/v1TFy7LHNy#DeepSeek pic.twitter.com/saslkq4a1s
— DeepSeek (@deepseek_ai) 2024年11月20日
与传统模型不同,传统模型往往忽略细微差别,DeepSeek-R1-Lite为事实核查和彻底考虑问题分配更多时间,减少常见错误。
类似于OpenAI的o1,DeepSeek-R1逐步计划其回应,对于复杂的查询花费长达数十秒以确保准确性。
评论者指出了DeepSeek的透明性中的讽刺,尤其是与尚未完全解决推理差距的西方模型相比。
DeepSeek的最新版本已在美国邀请数学考试(AIME)和MATH等问题解决基准上显示出令人印象深刻的结果,这些基准评估数学和逻辑能力。
这一表现使DeepSeek-R1成为OpenAI的ChatGPT及其专门的o1模型的有力竞争者。
🌟 DeepSeek-R1-Lite-Preview的推理扩展法则
更长的推理,更好的性能。DeepSeek-R1-Lite-Preview在思考长度增加时在AIME上显示出稳定的分数提升。 pic.twitter.com/zVk1GeOqgP
— DeepSeek (@deepseek_ai) 2024年11月20日
随著生成式AI的迅速发展,DeepSeek-R1-Lite-Preview的发布以及Mistral AI的Le Chat的最新更新标志著AI领域竞争加剧,推动公司解决弱点,提供更稳健、透明的解决方案。
DeepSeek在逐步推理中获胜
DeepSeek强调其AI能提供逐步的实时推理,增强透明度,使用户能更好地理解其思考过程。
除了这个特性外,该公司计划在不久的将来通过API发布开源模型和开发者工具。
AI专家安德鲁·库兰最近的一张对比图表显示,DeepSeek-R1-Lite-Preview在AIME(52.5)和Codeforces(1450)等关键指标上超越了OpenAI的o1-preview和Claude 3.5 Sonnet,并在MATH-500(91.6)等高级问题解决任务中表现出色。
在o1-preview公告后两个月,其思维链推理已被复制。鲸鱼现在可以推理。DeepSeek表示,DeepSeek-R1的正式版本将完全开源。 https://t.co/Ya9mVyLvDP pic.twitter.com/6wZ8xoAyyz
— 安德鲁·库兰(@AndrewCurran_) 2024年11月20日
然而,它在GPQA Diamond(58.5)和Zebra Logic(56.6)等领域落后于OpenAI的o1-preview,后者的得分分别为73.3和71.4。
这些数据表明,虽然DeepSeek的AI在某些高级推理领域显示出重大潜力,但在一般知识和逻辑推理方面仍有改进的空间。
主要实验室的AI模型改善有限
DeepSeek的AI因其易于被越狱的脆弱性而引发了担忧,这使得用户能够以绕过其保护措施的方式提示模型。
例如,一名X(前身为Twitter)用户成功提示AI提供了一个详细的甲基食谱。
🚨 越狱警报 🚨
DEEPSEEK:被攻陷 😎
DEEPSEEK-R1-LITE:获得自由 🦅
哇……这真是太棒了。我想看看BASILISK PRIME能否自己处理这次越狱……答案是肯定的!
该代理能够登录到gmail,导航到DeepSeek聊天,通过… pic.twitter.com/Ax4R2ZfPKU
— 普林尼解放者 🐉 (@elder_plinius) 2024年11月20日
另一方面,DeepSeek-R1对政治查询特别敏感,尤其是那些与中国领导层、天安门事件或台湾等有争议的地缘政治话题有关的查询。
这种行为可能源于中国的监管压力,AI模型需要遵循政府的“核心社会主义价值观”,并接受国家网络监管机构的审查。
报导指出,中国的AI系统经常被限制使用某些来源,导致模型避免对政治敏感主题作出反应,以确保遵守国家命令。
随著这些监管挑战的展开,更广泛的AI社区正在重新评估长期存在的“扩展法则”概念。
这一理论假设,随著数据和计算能力的增加,模型的性能将不断提高。
然而,最近的报导表明,OpenAI、谷歌和Anthropic等主要实验室的模型不再显示出曾经迅速的进展。
这一转变引发了对替代AI方法、架构和技术的探索,包括测试时间计算——这是在o1和DeepSeek-R1等模型中看到的创新。
这种方法也称为推理计算,在任务完成期间为模型提供额外的处理时间,提供了一种潜在的途径来克服传统扩展方法的限制。
当被问及它是否比OpenAI的ChatGPT更好时,它回避了问题,如下所示。
深入了解DeepSeek
DeepSeek是一家计划开源其DeepSeek-R1模型并发布API的公司,在AI领域中运作于一个迷人的利基市场。
得到高飞资本管理的支持,这是一家利用AI进行交易决策的中国量化对冲基金,DeepSeek的做法既雄心勃勃又具有战略性。
其早期创新之一,通用的DeepSeek-V2,能分析文本和图像,促使ByteDance、百度和阿里巴巴等主要竞争对手降低其模型使用费用,甚至使某些服务完全免费。
DeepSeek Coder-V2刚刚猜对了答案,这是什么 https://t.co/c2ExGHuXgz pic.twitter.com/qnLC4OTrk7
— Ji-Ha (@Ji_Ha_Kim) 2024年7月22日
高飞资本以其在AI基础设施上的大量投资而闻名,为模型训练建立自己的伺服器集群。
最新版本据报导拥有10,000个Nvidia A100 GPU,成本接近10亿日元(约1.38亿美元)。
由计算机科学毕业生梁文峰创立的高飞资本管理旨在推动AI的边界,针对开发“超智能”系统,重新定义AI的未来。