Reddit 用戶最先發現——Claude 突然變得更加敏銳,更加有能力。現在我們知道爲什麼:Anthropic 已經對其 AI 模型進行了重大升級,包括增強版的 Claude 3.5 Sonnet 和迫切需要的輕量級 Haiku 模型的升級。


最令人毛骨悚然的更新:這些 AI 現在可以物理控制計算機,移動光標,滾動頁面,甚至像人類一樣點擊按鈕。


在一段視頻演示中,Anthropic 的研究員 Sam Ringer 展示了 Claude 如何能夠通過瀏覽電子表格來填寫外部網站上的表單,在分析其 CRM 後搜索公司的信息,然後理解並填寫表單中的字段。



“今天在 API 上可用,開發人員可以指示 Claude 像人類一樣使用計算機——通過查看屏幕、移動光標、點擊按鈕和輸入文本。Claude 3.5 Sonnet 是第一個提供計算機使用功能的前沿 AI 模型,”Anthropic 在今天早些時候的官方公告中表示。“我們提前發佈計算機使用功能,以便開發人員反饋,並預計這一能力會隨着時間的推移迅速改善。”


Anthropic(或許是它的一些按鈕推動 AI?開個玩笑。)似乎在發佈公告之前就已經發布了該模型。幾個小時內,Claude 和 Anthropic 的子版塊被涌入的人淹沒,他們試圖瞭解到底發生了什麼,因爲他們的 AI 工作表現得如此出色:用戶報告稱它更快,更準確,令人驚訝的是它停止瞭如此頻繁的道歉。


“Claude 回來了,變得更好了。它真的理解你,迴應得像是實際理解了意圖,而不是死氣沉沉的迴應,”NextGenAIUser 在一條 Reddit 帖子中說。“我在使用 o1-Mini 和 o1-Preview 的編碼問題上卡了幾個小時,逐漸輸出越來越糟的迴應。用完全相同的提示將問題提交給 Claude,它一次性解決了,沒有問題,”Roth_Skyfire 在另一條評論中說。


他們是對的。Anthropic 報告稱,經過改進後,Claude 3.5 Sonnet 的編碼能力在 SWE-bench Verified 測試中從 33.4% 飆升至 49%,超越了像 OpenAI 的 o1-preview 等競爭對手。這不僅僅是一個小的提升。Anthropic 報告的每一個基準測試都顯示新的 Claude 3.5 Sonnet 比原始模型好得多。



圖片:Anthropic

但事情在這裏變得非常有趣。升級後的 Sonnet 不僅更聰明;它現在能夠控制您的 PC。Anthropic 將這個新功能稱爲“計算機使用”,並且目前處於公開測試階段。它的工作方式是,您給予 Claude 訪問您的桌面的權限,以及要執行的任務。然後 AI 將開始像人類使用您的計算機一樣操作——移動光標,點擊按鈕,輸入命令和填寫表單及文本字段,就像人類一樣。


然而,該功能僅通過 API 提供,因此短期內終端用戶無法享受。


Anthropic 已經訓練 Claude 視覺上解釋您屏幕上發生的事情。開發人員可以指示它執行諸如填寫表單、瀏覽網站,甚至使用軟件應用程序等任務。這有點像給您的 AI 能力,讓它坐在您的計算機前爲您工作,只是它不會感到疲倦,並且(希望)不會像我們人類那樣犯那麼多錯誤。


該功能處於測試階段,因爲它在某些基本操作上仍然會遇到困難——滾動和縮放給它帶來麻煩。這就是爲什麼 Anthropic 正在密切關注,存儲屏幕截圖至少 30 天,並進行安全檢查以捕捉任何可疑行爲。



該公司的偏執是有充分理由的。幾個月前,微軟推出了一項名爲“Recall”的功能,使 Copilot+ 能夠截取用戶計算機的屏幕截圖,以便其 AI 能夠更有幫助和相關性。這引發了太多的反響,微軟不得不推遲其計劃,因爲其 Copilot+ Recall 功能被視爲“間諜軟件”,並且當局開始對此進行調查。


但 Anthropic 由善良的人組成,他們承諾與衆不同。“我們發現更新後的 Claude 3.5 Sonnet,包括其新的計算機使用技能,仍然保持在 AI 安全級別 2——也就是說,它不需要比我們目前所採取的更高的安全和保障措施,”研究團隊表示。


像 Replit 這樣的公司已經在整合 Claude 的計算機使用功能,以幫助自動化應用程序評估,而 The Browser Company 正在測試其簡化基於網絡的工作流程的能力。這些早期採用者正在探索讓 Claude 處理通常需要數十個,甚至數百個手動步驟的任務的方法。


此外,Anthropic 的經濟實惠模型 Claude 3.5 Haiku 現在的能力與之前的旗艦模型 Claude 3 Opus 一樣強大。然而,這個模型的成本只有一小部分,延遲也大大降低,使其在不犧牲太多性能的情況下變得更易於獲取。


Claude 3.5 Haiku 在編碼任務和工具使用方面表現特別出色,在 SWE-bench Verified 測試中得分爲 40.6%。這使它在市場上某些更昂貴的模型之上,這意味着預算有限的開發人員不必在質量上妥協。


Claude 3.5 Haiku 將於十一月發佈。