Anthropic 發佈新款 Claude 3.5 Sonnet：一個足夠聰明的模型，可以接管您的計算機

Reddit 用戶最先發現——Claude 突然變得更加敏銳，更加有能力。現在我們知道爲什麼：Anthropic 已經對其 AI 模型進行了重大升級，包括增強版的 Claude 3.5 Sonnet 和迫切需要的輕量級 Haiku 模型的升級。

最令人毛骨悚然的更新：這些 AI 現在可以物理控制計算機，移動光標，滾動頁面，甚至像人類一樣點擊按鈕。

在一段視頻演示中，Anthropic 的研究員 Sam Ringer 展示了 Claude 如何能夠通過瀏覽電子表格來填寫外部網站上的表單，在分析其 CRM 後搜索公司的信息，然後理解並填寫表單中的字段。

“今天在 API 上可用，開發人員可以指示 Claude 像人類一樣使用計算機——通過查看屏幕、移動光標、點擊按鈕和輸入文本。Claude 3.5 Sonnet 是第一個提供計算機使用功能的前沿 AI 模型，”Anthropic 在今天早些時候的官方公告中表示。“我們提前發佈計算機使用功能，以便開發人員反饋，並預計這一能力會隨着時間的推移迅速改善。”

Anthropic（或許是它的一些按鈕推動 AI？開個玩笑。）似乎在發佈公告之前就已經發布了該模型。幾個小時內，Claude 和 Anthropic 的子版塊被涌入的人淹沒，他們試圖瞭解到底發生了什麼，因爲他們的 AI 工作表現得如此出色：用戶報告稱它更快，更準確，令人驚訝的是它停止瞭如此頻繁的道歉。

“Claude 回來了，變得更好了。它真的理解你，迴應得像是實際理解了意圖，而不是死氣沉沉的迴應，”NextGenAIUser 在一條 Reddit 帖子中說。“我在使用 o1-Mini 和 o1-Preview 的編碼問題上卡了幾個小時，逐漸輸出越來越糟的迴應。用完全相同的提示將問題提交給 Claude，它一次性解決了，沒有問題，”Roth_Skyfire 在另一條評論中說。

他們是對的。Anthropic 報告稱，經過改進後，Claude 3.5 Sonnet 的編碼能力在 SWE-bench Verified 測試中從 33.4% 飆升至 49%，超越了像 OpenAI 的 o1-preview 等競爭對手。這不僅僅是一個小的提升。Anthropic 報告的每一個基準測試都顯示新的 Claude 3.5 Sonnet 比原始模型好得多。

圖片：Anthropic
但事情在這裏變得非常有趣。升級後的 Sonnet 不僅更聰明；它現在能夠控制您的 PC。Anthropic 將這個新功能稱爲“計算機使用”，並且目前處於公開測試階段。它的工作方式是，您給予 Claude 訪問您的桌面的權限，以及要執行的任務。然後 AI 將開始像人類使用您的計算機一樣操作——移動光標，點擊按鈕，輸入命令和填寫表單及文本字段，就像人類一樣。

然而，該功能僅通過 API 提供，因此短期內終端用戶無法享受。

Anthropic 已經訓練 Claude 視覺上解釋您屏幕上發生的事情。開發人員可以指示它執行諸如填寫表單、瀏覽網站，甚至使用軟件應用程序等任務。這有點像給您的 AI 能力，讓它坐在您的計算機前爲您工作，只是它不會感到疲倦，並且（希望）不會像我們人類那樣犯那麼多錯誤。

該功能處於測試階段，因爲它在某些基本操作上仍然會遇到困難——滾動和縮放給它帶來麻煩。這就是爲什麼 Anthropic 正在密切關注，存儲屏幕截圖至少 30 天，並進行安全檢查以捕捉任何可疑行爲。

該公司的偏執是有充分理由的。幾個月前，微軟推出了一項名爲“Recall”的功能，使 Copilot+ 能夠截取用戶計算機的屏幕截圖，以便其 AI 能夠更有幫助和相關性。這引發了太多的反響，微軟不得不推遲其計劃，因爲其 Copilot+ Recall 功能被視爲“間諜軟件”，並且當局開始對此進行調查。

但 Anthropic 由善良的人組成，他們承諾與衆不同。“我們發現更新後的 Claude 3.5 Sonnet，包括其新的計算機使用技能，仍然保持在 AI 安全級別 2——也就是說，它不需要比我們目前所採取的更高的安全和保障措施，”研究團隊表示。

像 Replit 這樣的公司已經在整合 Claude 的計算機使用功能，以幫助自動化應用程序評估，而 The Browser Company 正在測試其簡化基於網絡的工作流程的能力。這些早期採用者正在探索讓 Claude 處理通常需要數十個，甚至數百個手動步驟的任務的方法。

此外，Anthropic 的經濟實惠模型 Claude 3.5 Haiku 現在的能力與之前的旗艦模型 Claude 3 Opus 一樣強大。然而，這個模型的成本只有一小部分，延遲也大大降低，使其在不犧牲太多性能的情況下變得更易於獲取。

Claude 3.5 Haiku 在編碼任務和工具使用方面表現特別出色，在 SWE-bench Verified 測試中得分爲 40.6%。這使它在市場上某些更昂貴的模型之上，這意味着預算有限的開發人員不必在質量上妥協。

Claude 3.5 Haiku 將於十一月發佈。
創作者的更多內容

實時新聞

創作者的更多內容

實時新聞

熱門文章