El nuevo modelo de inteligencia artificial de código abierto de Nvidia supera a GPT-4o en las pruebas comparativas

El 15 de octubre, Nvidia lanzó sin contemplaciones un nuevo modelo de inteligencia artificial que supuestamente superará a los sistemas de inteligencia artificial de última generación, incluidos GPT-4o y Claude-3.
Según una publicación en la plataforma de redes sociales X.com de la cuenta Nvidia AI Developer, el nuevo modelo, denominado Llama-3.1-Nemotron-70B-Instruct, "es un modelo líder" en Chatbot Arena de lmarena.AI.
Nvidia AI anuncia la puntuación de referencia de Nemotron. Fuente: Nvidia AI
Nemotrón
Llama-3.1-Nemotron-70B-Instruct es, en esencia, una versión modificada del Llama-3.1-70B-Instruct de código abierto de Meta. La parte “Nemotron” del nombre del modelo resume la contribución de Nvidia al resultado final.
El “rebaño” de modelos de IA de Llama, como los llama Meta, está pensado para ser utilizado como base de código abierto sobre la cual los desarrolladores puedan construir.
En el caso de Nemotron, Nvidia aceptó el desafío y desarrolló un sistema diseñado para ser más “útil” que modelos populares como ChatGPT de OpenAI y Claude-3 de Anthropic.
Nvidia utilizó conjuntos de datos especialmente seleccionados, métodos avanzados de ajuste y su propio hardware de IA de última generación para convertir el modelo básico de Meta en lo que podría ser el modelo de IA más "útil" del planeta.
Publicación de un ingeniero en X.com en la que expresa su entusiasmo por las capacidades de Nemotron. Fuente: Shayan Taslim
“Le hice algunas preguntas de codificación que suelo hacer para comparar los títulos de LLM y obtuve algunas de las mejores respuestas de esta. Jajaja, mierda”.
Evaluación comparativa
A la hora de determinar qué modelo de IA es “el mejor”, no existe una metodología clara. A diferencia, por ejemplo, de medir la temperatura ambiente con un termómetro de mercurio, no existe una única “verdad” en lo que respecta al rendimiento de los modelos de IA.
Los desarrolladores e investigadores tienen que determinar qué tan bien funciona un modelo de IA de la misma manera que se evalúa a los humanos: a través de pruebas comparativas.
La evaluación comparativa de la IA implica dar a diferentes modelos de IA las mismas consultas, tareas, preguntas o problemas y luego comparar la utilidad de los resultados. A menudo, debido a la subjetividad de lo que se considera útil y lo que no, se utilizan supervisores humanos para determinar el rendimiento de una máquina a través de evaluaciones a ciegas.
En el caso de Nemotron, parece que Nvidia afirma que el nuevo modelo supera a los modelos de última generación existentes, como GPT-4o y Claude-3, por un margen bastante amplio.
Los primeros puestos de la clasificación de Chatbot Arena. Fuente: LMArenea.AI
La imagen de arriba muestra las calificaciones de la prueba automatizada "Hard" en los tableros de clasificación de Chatbot Arena. Si bien Llama-3.1-Nemotron-70B-Instruct de Nvidia no parece estar en ninguna parte de los tableros, si la afirmación del desarrollador de que obtuvo un puntaje de 85 en esta prueba es válida, sería el modelo superior de facto en esta sección en particular.
Lo que hace que el logro sea quizás aún más interesante es que Llama-3.1-70B es el modelo de IA de código abierto de nivel medio de Meta. Existe una versión mucho más grande de Llama-3.1, la versión 405B (donde el número se refiere a cuántos mil millones de parámetros se ajustaron al modelo).
En comparación, se estima que GPT-4o se desarrolló con más de un billón de parámetros.
Revista: Estafa de billetera falsa Rabby vinculada al director ejecutivo de criptomonedas de Dubai y muchas más víctimas
Explora más de este creador

Lo más reciente

Explora más de este creador

Lo más reciente

Artículos populares