10 月 15 日,Nvidia 毫不掩饰地推出了一种新的人工智能模型,据称其性能将超越 GPT-4o 和 Claude-3 等最先进的人工智能系统。

根据 Nvidia AI 开发者账户在 X.com 社交媒体平台上发布的一篇帖子,新模型被称为 Llama-3.1-Nemotron-70B-Instruct,“是 lmarena.AI 聊天机器人竞技场上的领先模型”。

Nvidia AI 公布了 Nemotron 的基准测试分数。资料来源:Nvidia AI

内莫特朗

Llama-3.1-Nemotron-70B-Instruct 本质上是 Meta 开源 Llama-3.1-70B-Instruct 的修改版本。该模型名称中的“Nemotron”部分体现了 Nvidia 对最终结果的贡献。

正如 Meta 所说,Llama 人工智慧模型「群」旨在用作开发人员建构的开源基础。

就 Nemotron 而言,Nvidia 接受了挑战,开发了一个比 OpenAI 的 ChatGPT 和 Anthropic 的 Claude-3 等流行模型更「有用」的系统。 

Nvidia 使用专门策划的资料集、先进的微调方法以及自己最先进的 AI 硬件,将 Meta 的普通模型转变为可能是地球上最「有用」的 AI 模型。 

X.com 上一位工程师的贴文表达了对 Nemotron 功能的兴奋。资料来源:Shayan Taslim

「我问了它一些我通常会问来比较法学硕士的编码问题,并从这个问题中得到了一些最好的答案。哈哈,天啊。

标竿管理

当谈到确定哪种人工智慧模型是「最好的」时,没有明确的方法。例如,与使用水银温度计测量环境温度不同,人工智慧模型的性能不存在单一的「真相」。 

开发人员和研究人员必须透过比较测试来确定人工智慧模型与人类评估时的表现如何。 

人工智慧基准测试涉及为不同的人工智慧模型提供相同的查询、任务、问题或问题,然后比较结果的有用性。通常,由于有用和无用的主观性,人类监考人员被用来透过盲目评估来确定机器的性能。 

在 Nemotron 的案例中,Nvidia 似乎声称新模型的性能明显优于 GPT-4o 和 Claude-3 等现有最先进的模型。

聊天机器人竞技场排行榜的顶部。资料来源:LMArenea.AI

上图描绘了 Chatbot Arena 排行榜上自动「硬」测试的评分。虽然Nvidia 的Llama-3.1-Nemotron-70B-Instruct 似乎没有在主机板上的任何位置列出,但如果开发人员声称它在此测试中获得85 分的说法是有效的,那么它将成为该特定部分中事实上的顶级型号。 

更有趣的是,Llama-3.1-70B 是 Meta 的中间层开源人工智慧模型。 Llama-3.1 有一个更大的版本,即 405B 版本(其中数字指的是模型调整了多少亿个参数)。

相比之下,GPT-4o 估计已开发出超过一兆个参数。

杂志:假冒 Rabby 钱包骗局与杜拜加密货币执行长和更多受害者有关