Đây thực sự là một tuần tốt lành đối với AI nguồn mở.
Vào thứ Tư, Meta đã công bố bản nâng cấp cho mô hình ngôn ngữ lớn hiện đại nhất của mình, Llama 3.2, và nó không chỉ nói mà còn nhìn thấy.
Thú vị hơn nữa, một số phiên bản có thể chạy trên điện thoại thông minh của bạn mà không làm giảm chất lượng, nghĩa là bạn có thể có các tương tác AI cục bộ, ứng dụng và tùy chỉnh riêng mà không cần gửi dữ liệu đến máy chủ của bên thứ ba.
Ra mắt vào thứ tư trong Meta Connect, Llama 3.2 có bốn phiên bản, mỗi phiên bản có sức mạnh khác nhau. Các ứng cử viên nặng ký—mô hình tham số 11B và 90B—thể hiện sức mạnh của mình với cả khả năng xử lý văn bản và hình ảnh.
Chúng có thể giải quyết các nhiệm vụ phức tạp như phân tích biểu đồ, chú thích hình ảnh và thậm chí xác định chính xác các đối tượng trong ảnh dựa trên mô tả bằng ngôn ngữ tự nhiên.
Llama 3.2 ra mắt cùng tuần với Molmo của Viện Allen, được cho là LLM về thị giác đa phương thức nguồn mở tốt nhất trong các tiêu chuẩn tổng hợp, có hiệu suất ngang bằng với GPT-4o, Claude 3.5 Sonnet và Reka Core trong các thử nghiệm của chúng tôi.
Công ty của Zuck cũng giới thiệu hai nhà vô địch hạng ruồi mới: một cặp mô hình tham số 1B và 3B được thiết kế để đạt hiệu quả, tốc độ và các nhiệm vụ hạn chế nhưng lặp đi lặp lại, không đòi hỏi quá nhiều tính toán.
Những mô hình nhỏ này là bậc thầy về văn bản đa ngôn ngữ với khả năng "gọi công cụ", nghĩa là chúng có thể tích hợp tốt hơn với các công cụ lập trình. Mặc dù có kích thước nhỏ, chúng tự hào có cửa sổ ngữ cảnh mã thông báo ấn tượng 128K—giống như GPT4o và các mô hình mạnh mẽ khác—khiến chúng trở nên lý tưởng cho các tác vụ tóm tắt trên thiết bị, theo dõi hướng dẫn và viết lại.
Nhóm kỹ sư của Meta đã thực hiện một số động tác kỹ thuật số nghiêm túc để thực hiện điều này. Đầu tiên, họ sử dụng phương pháp cắt tỉa có cấu trúc để cắt bớt dữ liệu không cần thiết từ các mô hình lớn hơn, sau đó sử dụng phương pháp chưng cất kiến thức—chuyển kiến thức từ các mô hình lớn sang các mô hình nhỏ hơn—để đưa thêm thông minh.
Kết quả là một loạt các mẫu máy tính nhỏ gọn có hiệu suất vượt trội so với các đối thủ cạnh tranh trong cùng hạng cân, đánh bại các mẫu máy tính như Gemma 2 2.6B của Google và Phi-2 2.7B của Microsoft trên nhiều tiêu chuẩn khác nhau.
Meta cũng đang nỗ lực thúc đẩy AI trên thiết bị. Họ đã hình thành liên minh với các ông lớn phần cứng Qualcomm, MediaTek và Arm để đảm bảo Llama 3.2 hoạt động tốt với chip di động ngay từ ngày đầu tiên. Các gã khổng lồ điện toán đám mây cũng không nằm ngoài cuộc chơi—AWS, Google Cloud, Microsoft Azure và nhiều công ty khác đang cung cấp quyền truy cập tức thời vào các mô hình mới trên nền tảng của họ.
Về cơ bản, khả năng thị giác của Llama 3.2 xuất phát từ việc tinh chỉnh kiến trúc thông minh. Các kỹ sư của Meta đã tích hợp trọng số bộ điều hợp vào mô hình ngôn ngữ hiện có, tạo ra cầu nối giữa bộ mã hóa hình ảnh được đào tạo trước và lõi xử lý văn bản.
Nói cách khác, khả năng thị giác của mô hình không ảnh hưởng đến khả năng xử lý văn bản, do đó người dùng có thể mong đợi kết quả văn bản tương tự hoặc tốt hơn khi so sánh với Llama 3.1.
Bản phát hành Llama 3.2 là Mã nguồn mở—ít nhất là theo tiêu chuẩn của Meta. Meta đang cung cấp các mô hình để tải xuống trên Llama.com và Hugging Face, cũng như thông qua hệ sinh thái đối tác rộng lớn của họ.
Những người quan tâm đến việc chạy nó trên đám mây có thể sử dụng Google Collab Notebook của riêng họ hoặc sử dụng Groq để tương tác dựa trên văn bản, tạo ra gần 5000 mã thông báo trong vòng chưa đầy 3 giây.
Cưỡi Llama
Chúng tôi đưa Llama 3.2 vào thử nghiệm, nhanh chóng kiểm tra khả năng của nó trong nhiều tác vụ khác nhau.
Trong các tương tác dựa trên văn bản, mô hình hoạt động ngang bằng với các mô hình tiền nhiệm. Tuy nhiên, khả năng mã hóa của nó mang lại kết quả hỗn hợp.
Khi được thử nghiệm trên nền tảng Groq, Llama 3.2 đã tạo thành công mã cho các trò chơi phổ biến và các chương trình đơn giản. Tuy nhiên, mô hình 70B nhỏ hơn đã vấp ngã khi được yêu cầu tạo mã chức năng cho một trò chơi tùy chỉnh mà chúng tôi thiết kế. Tuy nhiên, mô hình 90B mạnh hơn hiệu quả hơn nhiều và tạo ra một trò chơi chức năng ngay lần thử đầu tiên.
Bạn có thể xem mã đầy đủ được tạo bởi Llama-3.2 và tất cả các mô hình khác mà chúng tôi đã thử nghiệm bằng cách nhấp vào liên kết này.
Xác định phong cách và các yếu tố chủ quan trong hình ảnh
Llama 3.2 rất giỏi trong việc xác định các yếu tố chủ quan trong hình ảnh. Khi được đưa cho một hình ảnh theo phong cách cyberpunk tương lai và được hỏi liệu nó có phù hợp với thẩm mỹ steampunk hay không, mô hình đã xác định chính xác phong cách và các yếu tố của nó. Nó đưa ra lời giải thích thỏa đáng, lưu ý rằng hình ảnh không phù hợp với steampunk do thiếu các yếu tố chính liên quan đến thể loại đó.
Phân tích biểu đồ (và nhận dạng hình ảnh SD)
Phân tích biểu đồ là một điểm mạnh khác của Llama 3.2, mặc dù nó yêu cầu hình ảnh có độ phân giải cao để có hiệu suất tối ưu. Khi chúng tôi nhập ảnh chụp màn hình có chứa biểu đồ—biểu đồ mà các mô hình khác như Molmo hoặc Reka có thể diễn giải—khả năng thị giác của Llama bị hạn chế. Mô hình đã xin lỗi, giải thích rằng nó không thể đọc đúng các chữ cái do chất lượng hình ảnh.
Nhận dạng văn bản trong hình ảnh
Trong khi Llama 3.2 gặp khó khăn với văn bản nhỏ trong biểu đồ của chúng tôi, nó hoạt động hoàn hảo khi đọc văn bản trong hình ảnh lớn hơn. Chúng tôi đã cho nó xem một slide giới thiệu về một người và mô hình đã hiểu thành công ngữ cảnh, phân biệt được tên và vai trò công việc mà không có bất kỳ lỗi nào.
Phán quyết
Nhìn chung, Llama 3.2 là một cải tiến lớn so với thế hệ trước và là một bổ sung tuyệt vời cho ngành công nghiệp AI nguồn mở. Điểm mạnh của nó nằm ở khả năng diễn giải hình ảnh và nhận dạng văn bản lớn, với một số lĩnh vực có thể cải thiện, đặc biệt là trong việc xử lý hình ảnh chất lượng thấp và giải quyết các tác vụ mã hóa tùy chỉnh phức tạp.
Lời hứa về khả năng tương thích trên thiết bị cũng tốt cho tương lai của các tác vụ AI cục bộ và riêng tư và là đối trọng tuyệt vời với các ưu đãi hấp dẫn như Gemini Nano và các mẫu độc quyền của Apple.
Biên tập bởi Josh Quittner và Sebastian Sinclair