Nvidia đã bất ngờ ra mắt một mô hình trí tuệ nhân tạo mới vào ngày 15 tháng 10, được cho là có khả năng vượt trội hơn các hệ thống AI hiện đại như GPT-4o và Claude-3.

Theo bài đăng trên nền tảng truyền thông xã hội X.com từ tài khoản Nvidia AI Developer, mô hình mới, được gọi là Llama-3.1-Nemotron-70B-Instruct, "là mô hình hàng đầu" trên Chatbot Arena của lmarena.AI.

Nvidia AI công bố điểm chuẩn cho Nemotron. Nguồn: Nvidia AI

nemotron

Llama-3.1-Nemotron-70B-Instruct về cơ bản là phiên bản sửa đổi của Llama-3.1-70B-Instruct mã nguồn mở của Meta. Phần "Nemotron" trong tên của mô hình này gói gọn sự đóng góp của Nvidia vào kết quả cuối cùng.

"Bầy" mô hình AI Llama, theo cách gọi của Meta, được dùng làm nền tảng nguồn mở để các nhà phát triển xây dựng.

Trong trường hợp của Nemotron, Nvidia đã chấp nhận thử thách và phát triển một hệ thống được thiết kế để "hữu ích" hơn các mô hình phổ biến như ChatGPT của OpenAI và Claude-3 của Anthropic.

Nvidia đã sử dụng các tập dữ liệu được tuyển chọn đặc biệt, các phương pháp tinh chỉnh tiên tiến và phần cứng AI hiện đại của riêng mình để biến mô hình gốc của Meta thành mô hình AI có thể là "hữu ích" nhất trên hành tinh.

Bài đăng của một kỹ sư trên X.com bày tỏ sự phấn khích về khả năng của Nemotron. Nguồn: Shayan Taslim

“Tôi đã hỏi nó một vài câu hỏi về mã hóa mà tôi thường hỏi để so sánh các chương trình LLM và nhận được một số câu trả lời hay nhất từ ​​câu hỏi này. lol, trời ơi.”

Đánh giá chuẩn

Khi nói đến việc xác định mô hình AI nào là "tốt nhất", không có phương pháp rõ ràng nào. Không giống như, ví dụ, đo nhiệt độ môi trường bằng nhiệt kế thủy ngân, không có một "sự thật" nào tồn tại khi nói đến hiệu suất của mô hình AI.

Các nhà phát triển và nhà nghiên cứu phải xác định mức độ hiệu quả của mô hình AI giống như cách đánh giá con người: thông qua thử nghiệm so sánh.

Đánh giá chuẩn AI liên quan đến việc đưa ra các truy vấn, nhiệm vụ, câu hỏi hoặc vấn đề giống nhau cho các mô hình AI khác nhau và sau đó so sánh tính hữu ích của kết quả. Thông thường, do tính chủ quan của những gì được coi là hữu ích và không được coi là hữu ích, nên người giám sát được sử dụng để xác định hiệu suất của máy thông qua các đánh giá mù.

Trong trường hợp của Nemotron, có vẻ như Nvidia đang tuyên bố rằng mẫu máy mới này vượt trội hơn hẳn các mẫu máy hiện đại nhất hiện có như GPT-4o và Claude-3.

Bảng xếp hạng hàng đầu của Chatbot Arena. Nguồn: LMArenea.AI

Hình ảnh trên mô tả xếp hạng trong bài kiểm tra "Khó" tự động trên Bảng xếp hạng Chatbot Arena. Mặc dù Llama-3.1-Nemotron-70B-Instruct của Nvidia dường như không được liệt kê ở bất kỳ đâu trên bảng, nhưng nếu tuyên bố của nhà phát triển rằng nó đạt 85 điểm trong bài kiểm tra này là hợp lệ, thì nó sẽ là mẫu máy hàng đầu trên thực tế trong phần cụ thể này.

Điều khiến thành tựu này có lẽ còn thú vị hơn nữa là Llama-3.1-70B là mô hình AI nguồn mở trung cấp của Meta. Có một phiên bản lớn hơn nhiều của Llama-3.1, phiên bản 405B (trong đó con số đề cập đến số lượng tỷ tham số mà mô hình được điều chỉnh).

Để so sánh, GPT-4o ước tính đã được phát triển với hơn một nghìn tỷ tham số.

Tạp chí: Vụ lừa đảo ví Rabby giả liên quan đến CEO tiền điện tử Dubai và nhiều nạn nhân khác