A medida que la competencia se intensifica en el campo de la IA, el gigante minorista chino Alibaba presentó su QwQ-32B-Preview, que supuestamente supera a la serie o1 de OpenAI.
El último modelo supuestamente supera a los modelos o1-preview y o1-mini de OpenAI en algunos puntos de referencia específicos, como las pruebas AIME y MATH, que evalúan el rendimiento de los modelos de IA en rompecabezas lógicos y problemas matemáticos.
Alibaba ha hecho disponible QwQ-32B-Preview para descargar.
Según el gigante minorista, el nuevo modelo de Alibaba es capaz de abordar problemas complejos e intrincados en comparación con modelos de lenguaje grandes normales (LLMs) como ChatGPT-4 y Claude 3.5.
Un artículo de Benzinga indica que el QwQ-32B-Preview es uno de los pocos disponibles bajo una licencia permisiva, lo que permite a los usuarios descargarlo y utilizarlo. El modelo ahora está disponible en la plataforma de desarrollo de IA Hugging Face.
Sin embargo, Alibaba lanzó ciertos componentes del modelo para limitar la replicación completa del modelo o la obtención de información sobre su funcionamiento.
El último modelo de Alibaba cuenta con 32.5 mil millones de parámetros, lo que le permite manejar solicitudes de hasta 32,000 palabras. Con las significativas capacidades del modelo y su accesibilidad semi-abierta, el nuevo participante de Alibaba establece las bases para un salto transformador en las tecnologías de razonamiento de IA.
El anuncio transparente de Alibaba, que subraya la sofisticación de su modelo, OpenAI ha mantenido sus recuentos de parámetros en secreto.
La llegada de este modelo se produce en un momento en que OpenAI está logrando avances significativos en el sector de la IA. En octubre, la valoración de OpenAI saltó a 157 mil millones de dólares tras una ronda de financiamiento exitosa.
A principios de esta semana, se informó que SoftBank Group SFTBF aumentó su participación en el creador de ChatGPT a través de una recompra de acciones por 1.5 mil millones de dólares.
Se dice que OpenAI también está explorando el desarrollo de su propio navegador web para desafiar el navegador Google Chrome de la subsidiaria Alphabet, tras la presión del Departamento de Justicia de EE. UU. para desinvertirlo.
Alibaba admite que el modelo también tiene defectos.
Aunque posee algunas fortalezas únicas, el nuevo modelo también tiene limitaciones. Según el grupo, QwQ-32B-Preview tiene problemas como cambios inesperados de idioma, lo que podría confundir a los usuarios. El modelo también tiene un rendimiento deficiente en tareas que requieren razonamiento de sentido común, lo que es común en muchos sistemas de IA.
Según AutoGPT, el modelo puede quedar atrapado en bucles lógicos, retrasando las respuestas.
A pesar de sus deficiencias, sus capacidades de razonamiento le permiten verificar sus propios hechos, lo que reduce los errores pero aumenta el tiempo de resolución.
Al razonar a través de tareas y planificar pasos, el modelo de Alibaba evita algunas trampas que afectan a los sistemas de IA tradicionales. Pero este enfoque exige tiempo extra, lo que podría limitar la aplicación en tiempo real.
Según Benzinga, las respuestas de QwQ-32B-Preview se alinean con los estándares regulatorios chinos, evitando temas políticamente sensibles.
Por ejemplo, temas políticamente sensibles como Taiwán darán respuestas que están alineadas con la postura del gobierno chino.
Además, las solicitudes sobre eventos como la Plaza de Tiananmen no generan respuestas, lo que muestra el diseño cauteloso del modelo.
Si bien esto podría ser ideal para el mercado chino, también puede limitar su atractivo en el mercado global. Sin embargo, el modelo es un paso significativo hacia el mundo de la IA de razonamiento. Aunque sus limitaciones pueden reducir su atractivo global, sus otros componentes como la lógica y su naturaleza semi-abierta lo convierten en un gran competidor para OpenAI.
Según AutoGPT, QwQ-32B-Preview destaca el potencial y los desafíos de esta emocionante frontera donde laboratorios de IA de todo el mundo están trabajando para refinar la tecnología de razonamiento.
De Cero a Pro en Web3: Tu Plan de Lanzamiento Profesional de 90 Días