Nvidia’s new open-source AI model beats GPT-4o on benchmarks

Cointelegraph · 2024-10-17T17:13:05.000Z

Nvidia unceremoniously launched a new artificial intelligence model on Oct 15 that’s purported to outperform state-of-the-art AI systems including GPT-4o and Claude-3. According to a post on the X.com social media platform from the Nvidia AI Developer account, the new model, dubbed Llama-3.1-Nemotron-70B-Instruct, “is a leading model” on lmarena.AI’s Chatbot Arena. Nvidia AI announces the benchmarks score for Nemotron. Source: Nvidia AI Nemotron Llama-3.1-Nemotron-70B-Instruct is, essentially, a modified version of Meta’s open-source Llama-3.1-70B-Instruct. The “Nemotron” portion of the model’s name encapsulates Nvidia’s contribution to the end result. The Llama “herd” of AI models, as Meta refers to them, are meant to be used as open-source foundations for developers to build on. In the case of Nemotron, Nvidia took up the challenge and developed a system designed to be more “helpful” than popular models such as OpenAI’s ChatGPT and Anthropic’s Claude-3. Nvidia used specially curated datasets, advanced fine-tuning methods, and its own state-of-the-art AI hardware to turn Meta’s vanilla model into what might be the most “helpful” AI model on the planet. An engineer’s post on X.com expressing excitement for Nemotron’s capabilities. Source: Shayan Taslim “I asked it a few coding questions I usually ask to compare LLMs and got some of the best answers from this one. lol, holy shit.” Benchmarking When it comes to determining which AI model is “the best,” there’s no clear-cut methodology. Unlike, for example, measuring the ambient temperature with a mercury thermometer, there isn’t a single “truth” that exists when it comes to AI model performance. Developers and researchers have to determine how well an AI model performs the same as humans are evaluated: through comparative testing. AI benchmarking involves giving different AI models the same queries, tasks, questions, or problems and then comparing the usefulness of the results. Often, due to the subjectivity of what is and isn’t considered useful, human proctors are used to determine a machine’s performance through blind evaluations. In Nemotron’s case, it appears that Nvidia is claiming the new model outperforms existing state-of-the-art models such as GPT-4o and Claude-3 by a fairly wide margin. The top of the Chatbot Arena leaderboards. Source: LMArenea.AI The image above depicts the ratings on the automated “Hard” test on the Chatbot Arena Leaderboards. While Nvidia’s Llama-3.1-Nemotron-70B-Instruct doesn’t appear to be listed anywhere on the boards, if the developer’s claim that it scored an 85 on this test is valid, it would be the de facto top model in this particular section. What makes the achievement perhaps even more interesting is that Llama-3.1-70B is Meta’s middle-tier open-source AI model. There’s a much larger version of Llama-3.1, the 405B version (where the number refers to how many billion parameters the model was tuned with). By comparison, GPT-4o is estimated to have been developed with over one trillion parameters. Magazine: Fake Rabby Wallet scam linked to Dubai crypto CEO and many more victims

Nvidia đã bất ngờ ra mắt một mô hình trí tuệ nhân tạo mới vào ngày 15 tháng 10, được cho là có khả năng vượt trội hơn các hệ thống AI hiện đại như GPT-4o và Claude-3.
Theo bài đăng trên nền tảng truyền thông xã hội X.com từ tài khoản Nvidia AI Developer, mô hình mới, được gọi là Llama-3.1-Nemotron-70B-Instruct, "là mô hình hàng đầu" trên Chatbot Arena của lmarena.AI.
Nvidia AI công bố điểm chuẩn cho Nemotron. Nguồn: Nvidia AI
nemotron
Llama-3.1-Nemotron-70B-Instruct về cơ bản là phiên bản sửa đổi của Llama-3.1-70B-Instruct mã nguồn mở của Meta. Phần "Nemotron" trong tên của mô hình này gói gọn sự đóng góp của Nvidia vào kết quả cuối cùng.
"Bầy" mô hình AI Llama, theo cách gọi của Meta, được dùng làm nền tảng nguồn mở để các nhà phát triển xây dựng.
Trong trường hợp của Nemotron, Nvidia đã chấp nhận thử thách và phát triển một hệ thống được thiết kế để "hữu ích" hơn các mô hình phổ biến như ChatGPT của OpenAI và Claude-3 của Anthropic.
Nvidia đã sử dụng các tập dữ liệu được tuyển chọn đặc biệt, các phương pháp tinh chỉnh tiên tiến và phần cứng AI hiện đại của riêng mình để biến mô hình gốc của Meta thành mô hình AI có thể là "hữu ích" nhất trên hành tinh.
Bài đăng của một kỹ sư trên X.com bày tỏ sự phấn khích về khả năng của Nemotron. Nguồn: Shayan Taslim
“Tôi đã hỏi nó một vài câu hỏi về mã hóa mà tôi thường hỏi để so sánh các chương trình LLM và nhận được một số câu trả lời hay nhất từ ​​câu hỏi này. lol, trời ơi.”
Đánh giá chuẩn
Khi nói đến việc xác định mô hình AI nào là "tốt nhất", không có phương pháp rõ ràng nào. Không giống như, ví dụ, đo nhiệt độ môi trường bằng nhiệt kế thủy ngân, không có một "sự thật" nào tồn tại khi nói đến hiệu suất của mô hình AI.
Các nhà phát triển và nhà nghiên cứu phải xác định mức độ hiệu quả của mô hình AI giống như cách đánh giá con người: thông qua thử nghiệm so sánh.
Đánh giá chuẩn AI liên quan đến việc đưa ra các truy vấn, nhiệm vụ, câu hỏi hoặc vấn đề giống nhau cho các mô hình AI khác nhau và sau đó so sánh tính hữu ích của kết quả. Thông thường, do tính chủ quan của những gì được coi là hữu ích và không được coi là hữu ích, nên người giám sát được sử dụng để xác định hiệu suất của máy thông qua các đánh giá mù.
Trong trường hợp của Nemotron, có vẻ như Nvidia đang tuyên bố rằng mẫu máy mới này vượt trội hơn hẳn các mẫu máy hiện đại nhất hiện có như GPT-4o và Claude-3.
Bảng xếp hạng hàng đầu của Chatbot Arena. Nguồn: LMArenea.AI
Hình ảnh trên mô tả xếp hạng trong bài kiểm tra "Khó" tự động trên Bảng xếp hạng Chatbot Arena. Mặc dù Llama-3.1-Nemotron-70B-Instruct của Nvidia dường như không được liệt kê ở bất kỳ đâu trên bảng, nhưng nếu tuyên bố của nhà phát triển rằng nó đạt 85 điểm trong bài kiểm tra này là hợp lệ, thì nó sẽ là mẫu máy hàng đầu trên thực tế trong phần cụ thể này.
Điều khiến thành tựu này có lẽ còn thú vị hơn nữa là Llama-3.1-70B là mô hình AI nguồn mở trung cấp của Meta. Có một phiên bản lớn hơn nhiều của Llama-3.1, phiên bản 405B (trong đó con số đề cập đến số lượng tỷ tham số mà mô hình được điều chỉnh).
Để so sánh, GPT-4o ước tính đã được phát triển với hơn một nghìn tỷ tham số.
Tạp chí: Vụ lừa đảo ví Rabby giả liên quan đến CEO tiền điện tử Dubai và nhiều nạn nhân khác

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Khám phá thêm từ Nhà sáng tạo nội dung

Tin tức mới nhất

Bài viết thịnh hành