Anthropic Unleashes New Claude 3.5 Sonnet: A Model Smart Enough to Take Over Your Computer

AICoin官方 · 2024-10-22T21:28:54.000Z

Reddit users spotted it first—Claude had suddenly gotten sharper, more capable. Now we know why: Anthropic has rolled out significant upgrades to its AI models, including an enhanced Claude 3.5 Sonnet and a much needed upgrade to its lightweight Haiku model. Eeriest update of all: These AIs can now physically control computers, moving cursors, scrolling through pages and even clicking buttons just like humans do. In a video demonstration, Sam Ringer, an Anthropic researcher, showed how Claude was capable of filling out a form in an external website by scrolling through a spreadsheet, searching for a company’s information after analyzing its CRM and then understanding—and filling in—the fields in a form. “Available today on the API, developers can direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking buttons, and typing text. Claude 3.5 Sonnet is the first frontier AI model to offer computer use,” Anthropic said in an official announcement earlier today. “We're releasing computer use early for feedback from developers, and expect the capability to improve rapidly over time.” Anthropic (or maybe one of its button-pushing AIs? Jk.) seems to have released the model before they even made the announcement. For hours, the subreddits for Claude and Anthropic were flooded with people trying to know what the hell was going on because their AI was doing such a good work: Users reported it was faster, more accurate, and amazingly it stopped apologizing so much. “Claude is so back, so much better. It just gets you, responds like it’s actually understanding the intent instead of a dead lifeless response,” NextGenAIUser said in one Reddit post. “Was stuck for hours on a coding issue using o1-Mini and o1-Preview, progressively outputting worse and worse responses. Fed the problem to Claude with the exact same prompt and it one-shot it no issues,” Roth_Skyfire said in another comment. And they were right. Anthropic reported that after the improvement Claude 3.5 Sonnet's coding abilities shot up from 33.4% to 49% on the SWE-bench Verified test, beating out competitors like OpenAI's o1-preview. That's not just a minor bump. Every single benchmark reported by Anthropic shows that the new Claude 3.5 Sonnet is much better than the original model. Image: Anthropic But here’s where things get really interesting. The upgraded Sonnet isn’t just smarter; it’s now capable of controlling your PC. Anthropic calls this new feature “computer use,” and it’s currently in public beta. The way it works is, you give Claude access to your desktop, and a task to execute. The AI will then begin to act as if it were a human using your computer via a remote desktop—moving the cursor, clicking buttons, and typing out commands and filling forms and text fields just like a human would. However, this feature is only available via API, so it’s not something end users will be able to savor in the short term. Anthropic has trained Claude to visually interpret what’s happening on your screen. Developers can instruct it to perform tasks such as filling out forms, navigating websites, or even using software applications. It’s a little like giving your AI the ability to sit in front of your computer and do your work for you, except it doesn’t get tired and (hopefully) doesn’t make as many mistakes as we humans tend to. The feature is in beta because it still stumbles over some basics—scrolling and zooming give it trouble. That's why Anthropic is keeping a close eye on things, storing screenshots for at least 30 days and running safety checks to catch any questionable behavior. The company’s paranoia is well founded. A few months ago Microsoft introduced a feature named “Recall” that would let Copilot+ take screenshots of its users’ computers so its AI could be more helpful and relevant. It got so much noise that Microsoft had to delay its plans after its Copilot+ Recall feature was deemed as 'spyware'—and authorities started investigating it. But Anthropic is made up of nice people, and they promise they are different. “We found that the updated Claude 3.5 Sonnet, including its new computer use skill, remains at AI Safety Level 2—that is, it doesn’t require a higher standard of safety and security measures than those we currently have in place,” the research team says. Companies like Replit are already integrating Claude’s computer use feature to help automate app evaluations, while The Browser Company is testing its ability to streamline web-based workflows. These early adopters are exploring ways to get Claude to handle tasks that would usually take dozens, if not hundreds, of manual steps. Also, Anthropic’s budget friendly model, Claude 3.5 Haiku is now as powerful as its previous flagship model Claude 3 Opus. However, this model runs at a fraction of the cost and with much lower latency, making it more accessible without sacrificing too much performance. Claude 3.5 Haiku is particularly good at coding tasks and tool use, clocking in with a SWE-bench Verified score of 40.6%. That puts it ahead of some of the more expensive models on the market, meaning developers on a budget won’t have to compromise on quality. Claude 3.5 Haiku will be available in November.

Người dùng Reddit đã phát hiện ra điều này trước tiên - Claude đã bất ngờ trở nên sắc bén hơn, có khả năng hơn. Bây giờ chúng ta biết tại sao: Anthropic đã triển khai những nâng cấp đáng kể cho các mô hình AI của mình, bao gồm một Claude 3.5 Sonnet được cải thiện và một nâng cấp rất cần thiết cho mô hình Haiku nhẹ.

Cập nhật kỳ lạ nhất: Những AI này hiện có thể điều khiển máy tính một cách vật lý, di chuyển con trỏ, cuộn qua các trang và thậm chí nhấp vào các nút giống như con người.

Trong một video trình diễn, Sam Ringer, một nhà nghiên cứu của Anthropic, đã cho thấy cách Claude có khả năng điền vào một mẫu trên một trang web bên ngoài bằng cách cuộn qua một bảng tính, tìm kiếm thông tin của một công ty sau khi phân tích CRM của nó và sau đó hiểu và điền vào các trường trong một mẫu.

“Có sẵn hôm nay trên API, các nhà phát triển có thể chỉ đạo Claude sử dụng máy tính giống như con người - bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút và gõ văn bản. Claude 3.5 Sonnet là mô hình AI tiên phong đầu tiên cung cấp tính năng sử dụng máy tính,” Anthropic nói trong một thông báo chính thức vào sáng nay. “Chúng tôi phát hành tính năng sử dụng máy tính sớm để nhận phản hồi từ các nhà phát triển, và mong đợi khả năng này sẽ cải thiện nhanh chóng theo thời gian.”

Anthropic (hoặc có thể một trong những AI ấn nút của nó? Đùa thôi.) dường như đã phát hành mô hình trước khi họ thậm chí thông báo. Trong nhiều giờ, các subreddit của Claude và Anthropic đã bị ngập tràn bởi những người cố gắng tìm hiểu điều gì đang xảy ra vì AI của họ đang hoạt động quá tốt: Người dùng báo cáo rằng nó nhanh hơn, chính xác hơn, và thật đáng ngạc nhiên, nó đã ngừng xin lỗi quá nhiều.

“Claude đã trở lại, tốt hơn nhiều. Nó hiểu bạn, phản hồi như thể nó thực sự hiểu ý định thay vì một phản hồi vô hồn,” NextGenAIUser nói trong một bài đăng trên Reddit. “Đã bị mắc kẹt hàng giờ với một vấn đề lập trình sử dụng o1-Mini và o1-Preview, liên tục cho ra những phản hồi tệ hơn. Đưa vấn đề cho Claude với cùng một câu lệnh và nó đã giải quyết ngay mà không gặp vấn đề nào,” Roth_Skyfire nói trong một bình luận khác.

Và họ đã đúng. Anthropic báo cáo rằng sau khi cải thiện, khả năng lập trình của Claude 3.5 Sonnet đã tăng từ 33.4% lên 49% trong bài kiểm tra SWE-bench Verified, vượt qua các đối thủ như o1-preview của OpenAI. Đó không chỉ là một bước nhảy nhỏ. Mỗi chỉ số được báo cáo bởi Anthropic cho thấy rằng Claude 3.5 Sonnet mới tốt hơn nhiều so với mô hình gốc.

Hình ảnh: Anthropic
Nhưng đây là nơi mọi thứ trở nên thực sự thú vị. Sonnet được nâng cấp không chỉ thông minh hơn; nó hiện có khả năng điều khiển PC của bạn. Anthropic gọi tính năng mới này là “sử dụng máy tính,” và nó hiện đang ở trong giai đoạn beta công khai. Cách nó hoạt động là, bạn cho Claude quyền truy cập vào máy tính để bàn của bạn, và một nhiệm vụ cần thực hiện. AI sau đó sẽ bắt đầu hành động như thể nó là một con người đang sử dụng máy tính của bạn qua một máy tính để bàn từ xa - di chuyển con trỏ, nhấp vào các nút, gõ lệnh và điền vào các mẫu và trường văn bản giống như một con người.

Tuy nhiên, tính năng này chỉ có sẵn qua API, vì vậy đây không phải là điều mà người dùng cuối có thể tận hưởng trong thời gian ngắn.

Anthropic đã đào tạo Claude để diễn giải trực quan những gì đang xảy ra trên màn hình của bạn. Các nhà phát triển có thể chỉ định nó thực hiện các nhiệm vụ như điền mẫu, điều hướng trang web hoặc thậm chí sử dụng các ứng dụng phần mềm. Giống như việc trao cho AI của bạn khả năng ngồi trước máy tính của bạn và làm việc cho bạn, ngoại trừ việc nó không cảm thấy mệt và (hy vọng) không mắc phải nhiều sai lầm như chúng ta.

Tính năng này đang ở giai đoạn beta vì nó vẫn gặp khó khăn với một số điều cơ bản - cuộn và phóng to khiến nó gặp vấn đề. Đó là lý do tại sao Anthropic đang theo dõi chặt chẽ mọi thứ, lưu trữ ảnh chụp màn hình trong ít nhất 30 ngày và thực hiện các kiểm tra an toàn để phát hiện bất kỳ hành vi đáng ngờ nào.

Sự hoang mang của công ty là có cơ sở. Vài tháng trước, Microsoft đã giới thiệu một tính năng mang tên “Recall” cho phép Copilot+ chụp ảnh màn hình của máy tính của người dùng để AI của nó có thể hữu ích và liên quan hơn. Đã có quá nhiều phản ứng đến nỗi Microsoft phải trì hoãn kế hoạch của mình sau khi tính năng Copilot+ Recall của nó bị coi là 'phần mềm gián điệp' - và các cơ quan chức năng bắt đầu điều tra.

Nhưng Anthropic được tạo ra bởi những người tốt bụng, và họ hứa rằng họ khác biệt. “Chúng tôi nhận thấy rằng Claude 3.5 Sonnet đã được cập nhật, bao gồm kỹ năng sử dụng máy tính mới của nó, vẫn ở mức An toàn AI Cấp 2 - tức là, nó không yêu cầu tiêu chuẩn an toàn và bảo mật cao hơn so với những gì chúng tôi hiện có,” nhóm nghiên cứu nói.

Các công ty như Replit đã tích hợp tính năng sử dụng máy tính của Claude để giúp tự động hóa việc đánh giá ứng dụng, trong khi The Browser Company đang thử nghiệm khả năng tinh giản quy trình làm việc trên web. Những người tiên phong này đang khám phá cách để Claude xử lý các nhiệm vụ thường mất hàng chục, nếu không muốn nói là hàng trăm bước thủ công.

Ngoài ra, mô hình thân thiện với ngân sách của Anthropic, Claude 3.5 Haiku hiện mạnh mẽ như mô hình chủ lực trước đó của nó là Claude 3 Opus. Tuy nhiên, mô hình này hoạt động với chi phí thấp hơn nhiều và độ trễ thấp hơn nhiều, khiến nó trở nên dễ tiếp cận hơn mà không phải hy sinh quá nhiều hiệu suất.

Claude 3.5 Haiku đặc biệt tốt trong các nhiệm vụ lập trình và sử dụng công cụ, đạt điểm SWE-bench Verified là 40.6%. Điều này đặt nó vượt trội hơn một số mô hình đắt tiền hơn trên thị trường, có nghĩa là các nhà phát triển có ngân sách sẽ không phải hy sinh về chất lượng.

Claude 3.5 Haiku sẽ có mặt vào tháng 11.

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Bài viết thịnh hành