Người dùng Reddit đã phát hiện ra điều này trước tiên - Claude đã bất ngờ trở nên sắc bén hơn, có khả năng hơn. Bây giờ chúng ta biết tại sao: Anthropic đã triển khai những nâng cấp đáng kể cho các mô hình AI của mình, bao gồm một Claude 3.5 Sonnet được cải thiện và một nâng cấp rất cần thiết cho mô hình Haiku nhẹ.


Cập nhật kỳ lạ nhất: Những AI này hiện có thể điều khiển máy tính một cách vật lý, di chuyển con trỏ, cuộn qua các trang và thậm chí nhấp vào các nút giống như con người.


Trong một video trình diễn, Sam Ringer, một nhà nghiên cứu của Anthropic, đã cho thấy cách Claude có khả năng điền vào một mẫu trên một trang web bên ngoài bằng cách cuộn qua một bảng tính, tìm kiếm thông tin của một công ty sau khi phân tích CRM của nó và sau đó hiểu và điền vào các trường trong một mẫu.



“Có sẵn hôm nay trên API, các nhà phát triển có thể chỉ đạo Claude sử dụng máy tính giống như con người - bằng cách nhìn vào màn hình, di chuyển con trỏ, nhấp vào các nút và gõ văn bản. Claude 3.5 Sonnet là mô hình AI tiên phong đầu tiên cung cấp tính năng sử dụng máy tính,” Anthropic nói trong một thông báo chính thức vào sáng nay. “Chúng tôi phát hành tính năng sử dụng máy tính sớm để nhận phản hồi từ các nhà phát triển, và mong đợi khả năng này sẽ cải thiện nhanh chóng theo thời gian.”


Anthropic (hoặc có thể một trong những AI ấn nút của nó? Đùa thôi.) dường như đã phát hành mô hình trước khi họ thậm chí thông báo. Trong nhiều giờ, các subreddit của Claude và Anthropic đã bị ngập tràn bởi những người cố gắng tìm hiểu điều gì đang xảy ra vì AI của họ đang hoạt động quá tốt: Người dùng báo cáo rằng nó nhanh hơn, chính xác hơn, và thật đáng ngạc nhiên, nó đã ngừng xin lỗi quá nhiều.


“Claude đã trở lại, tốt hơn nhiều. Nó hiểu bạn, phản hồi như thể nó thực sự hiểu ý định thay vì một phản hồi vô hồn,” NextGenAIUser nói trong một bài đăng trên Reddit. “Đã bị mắc kẹt hàng giờ với một vấn đề lập trình sử dụng o1-Mini và o1-Preview, liên tục cho ra những phản hồi tệ hơn. Đưa vấn đề cho Claude với cùng một câu lệnh và nó đã giải quyết ngay mà không gặp vấn đề nào,” Roth_Skyfire nói trong một bình luận khác.


Và họ đã đúng. Anthropic báo cáo rằng sau khi cải thiện, khả năng lập trình của Claude 3.5 Sonnet đã tăng từ 33.4% lên 49% trong bài kiểm tra SWE-bench Verified, vượt qua các đối thủ như o1-preview của OpenAI. Đó không chỉ là một bước nhảy nhỏ. Mỗi chỉ số được báo cáo bởi Anthropic cho thấy rằng Claude 3.5 Sonnet mới tốt hơn nhiều so với mô hình gốc.



Hình ảnh: Anthropic

Nhưng đây là nơi mọi thứ trở nên thực sự thú vị. Sonnet được nâng cấp không chỉ thông minh hơn; nó hiện có khả năng điều khiển PC của bạn. Anthropic gọi tính năng mới này là “sử dụng máy tính,” và nó hiện đang ở trong giai đoạn beta công khai. Cách nó hoạt động là, bạn cho Claude quyền truy cập vào máy tính để bàn của bạn, và một nhiệm vụ cần thực hiện. AI sau đó sẽ bắt đầu hành động như thể nó là một con người đang sử dụng máy tính của bạn qua một máy tính để bàn từ xa - di chuyển con trỏ, nhấp vào các nút, gõ lệnh và điền vào các mẫu và trường văn bản giống như một con người.


Tuy nhiên, tính năng này chỉ có sẵn qua API, vì vậy đây không phải là điều mà người dùng cuối có thể tận hưởng trong thời gian ngắn.


Anthropic đã đào tạo Claude để diễn giải trực quan những gì đang xảy ra trên màn hình của bạn. Các nhà phát triển có thể chỉ định nó thực hiện các nhiệm vụ như điền mẫu, điều hướng trang web hoặc thậm chí sử dụng các ứng dụng phần mềm. Giống như việc trao cho AI của bạn khả năng ngồi trước máy tính của bạn và làm việc cho bạn, ngoại trừ việc nó không cảm thấy mệt và (hy vọng) không mắc phải nhiều sai lầm như chúng ta.


Tính năng này đang ở giai đoạn beta vì nó vẫn gặp khó khăn với một số điều cơ bản - cuộn và phóng to khiến nó gặp vấn đề. Đó là lý do tại sao Anthropic đang theo dõi chặt chẽ mọi thứ, lưu trữ ảnh chụp màn hình trong ít nhất 30 ngày và thực hiện các kiểm tra an toàn để phát hiện bất kỳ hành vi đáng ngờ nào.



Sự hoang mang của công ty là có cơ sở. Vài tháng trước, Microsoft đã giới thiệu một tính năng mang tên “Recall” cho phép Copilot+ chụp ảnh màn hình của máy tính của người dùng để AI của nó có thể hữu ích và liên quan hơn. Đã có quá nhiều phản ứng đến nỗi Microsoft phải trì hoãn kế hoạch của mình sau khi tính năng Copilot+ Recall của nó bị coi là 'phần mềm gián điệp' - và các cơ quan chức năng bắt đầu điều tra.


Nhưng Anthropic được tạo ra bởi những người tốt bụng, và họ hứa rằng họ khác biệt. “Chúng tôi nhận thấy rằng Claude 3.5 Sonnet đã được cập nhật, bao gồm kỹ năng sử dụng máy tính mới của nó, vẫn ở mức An toàn AI Cấp 2 - tức là, nó không yêu cầu tiêu chuẩn an toàn và bảo mật cao hơn so với những gì chúng tôi hiện có,” nhóm nghiên cứu nói.


Các công ty như Replit đã tích hợp tính năng sử dụng máy tính của Claude để giúp tự động hóa việc đánh giá ứng dụng, trong khi The Browser Company đang thử nghiệm khả năng tinh giản quy trình làm việc trên web. Những người tiên phong này đang khám phá cách để Claude xử lý các nhiệm vụ thường mất hàng chục, nếu không muốn nói là hàng trăm bước thủ công.


Ngoài ra, mô hình thân thiện với ngân sách của Anthropic, Claude 3.5 Haiku hiện mạnh mẽ như mô hình chủ lực trước đó của nó là Claude 3 Opus. Tuy nhiên, mô hình này hoạt động với chi phí thấp hơn nhiều và độ trễ thấp hơn nhiều, khiến nó trở nên dễ tiếp cận hơn mà không phải hy sinh quá nhiều hiệu suất.


Claude 3.5 Haiku đặc biệt tốt trong các nhiệm vụ lập trình và sử dụng công cụ, đạt điểm SWE-bench Verified là 40.6%. Điều này đặt nó vượt trội hơn một số mô hình đắt tiền hơn trên thị trường, có nghĩa là các nhà phát triển có ngân sách sẽ không phải hy sinh về chất lượng.


Claude 3.5 Haiku sẽ có mặt vào tháng 11.