El próximo modelo de inteligencia artificial de OpenAI está ofreciendo menores ganancias de rendimiento que sus predecesores, dijeron fuentes familiarizadas con el asunto a The Information.


Las pruebas de empleados revelan que Orion logró un rendimiento a nivel de GPT-4 después de completar solo el 20% de su entrenamiento, informa The Information.


El aumento de calidad de GPT-4 a la versión actual de GPT-5 parece ser menor que el de GPT-3 a GPT-4.


“Algunos investigadores de la empresa creen que Orion no es confiablemente mejor que su predecesor en el manejo de ciertas tareas, según los empleados de (OpenAI),” informó The Information. “Orion tiene un mejor rendimiento en tareas de lenguaje pero puede no superar a modelos anteriores en tareas como la codificación, según un empleado de OpenAI.”


Si bien que Orion se acerque a GPT-4 con el 20% de su entrenamiento puede sonar impresionante para algunos, es importante señalar que las primeras etapas del entrenamiento de IA suelen ofrecer las mejoras más dramáticas, con fases posteriores que generan ganancias menores.


Por lo tanto, el 80% restante del tiempo de entrenamiento no es probable que produzca la misma magnitud de avances vistos en saltos generacionales anteriores, dijeron las fuentes.



Imagen: V7 Labs

Las limitaciones emergen en un momento crítico para OpenAI tras su reciente ronda de financiación de $6.6 mil millones.


La empresa ahora enfrenta expectativas más altas de los inversores mientras lidia con restricciones técnicas que desafían los enfoques de escalado tradicionales en el desarrollo de IA. Si estas versiones iniciales no cumplen con las expectativas, los esfuerzos de recaudación de fondos futuros de la empresa pueden no ser recibidos con el mismo entusiasmo que antes, y eso podría ser un problema para una empresa potencialmente con fines de lucro, que es lo que Sam Altman parece querer para OpenAI.


Resultados decepcionantes apuntan a un desafío fundamental que enfrenta toda la industria de la IA: la disminución de la oferta de datos de entrenamiento de alta calidad y la necesidad de seguir siendo relevantes en un campo tan competitivo como la IA generativa.


La investigación publicada en junio predijo que las empresas de IA agotarán los datos de texto generados por humanos disponibles públicamente entre 2026 y 2032, marcando un punto de inflexión crítico para los enfoques de desarrollo tradicionales.


"Nuestros hallazgos indican que las tendencias actuales de desarrollo de LLM no pueden sostenerse a través de la escalabilidad de datos convencional por sí sola," dice el documento de investigación, destacando la necesidad de enfoques alternativos para la mejora del modelo, incluida la generación de datos sintéticos, el aprendizaje por transferencia de dominios ricos en datos y el uso de datos no públicos.


La estrategia histórica de entrenar modelos de lenguaje con texto disponible públicamente de sitios web, libros y otras fuentes ha alcanzado un punto de rendimientos decrecientes, con desarrolladores que han "extraído en gran medida todo lo que pueden de ese tipo de datos," según The Information.


Cómo OpenAI está abordando este problema: Modelos de razonamiento vs. Modelos de lenguaje

Para abordar estos desafíos, OpenAI está reestructurando fundamentalmente su enfoque hacia el desarrollo de IA.


“En respuesta al reciente desafío a las leyes de escalado basadas en el entrenamiento planteado por la desaceleración de las mejoras de GPT, la industria parece estar cambiando su esfuerzo hacia la mejora de modelos después de su entrenamiento inicial, lo que podría generar un tipo diferente de ley de escalado,” informa The Information.


Para lograr este estado de mejora continua, OpenAI está separando el desarrollo del modelo en dos caminos distintos:


La Serie O (que parece ser el nombre en código Strawberry), centrada en las capacidades de razonamiento, representa una nueva dirección en la arquitectura del modelo. Estos modelos operan con una intensidad computacional significativamente mayor y están explícitamente diseñados para tareas de resolución de problemas complejos.


Las demandas computacionales son sustanciales, con estimaciones tempranas sugiriendo que los costos operativos son seis veces mayores que los de los modelos actuales. Sin embargo, las capacidades de razonamiento mejoradas podrían justificar el aumento de gastos para aplicaciones específicas que requieren procesamiento analítico avanzado.


Este modelo, si es el mismo que Strawberry, también tiene la tarea de generar suficientes datos sintéticos para aumentar constantemente la calidad de los LLM de OpenAI.


En paralelo, los Modelos Orion o la Serie GPT (considerando que OpenAI ha registrado la marca GPT-5) continúan evolucionando, enfocándose en el procesamiento del lenguaje general y las tareas de comunicación. Estos modelos mantienen requisitos computacionales más eficientes mientras aprovechan su base de conocimientos más amplia para tareas de redacción y argumentación.


El CPO de OpenAI, Kevin Weil, también confirmó esto durante un AMA y dijo que espera converger ambos desarrollos en algún momento en el futuro.


“No es uno u otro, es ambos,” respondió cuando se le preguntó si OpenAI se centraría en escalar LLMs con más datos o usar un enfoque diferente, enfocándose en modelos más pequeños pero más rápidos, “mejores modelos base más más tiempo de cómputo de escalado/inferencia de fresa.”


¿Una solución alternativa o la solución definitiva?

El enfoque de OpenAI para abordar la escasez de datos a través de la generación de datos sintéticos presenta desafíos complejos para la industria. Los investigadores de la empresa están desarrollando modelos sofisticados diseñados para generar datos de entrenamiento, sin embargo, esta solución introduce nuevas complicaciones en el mantenimiento de la calidad y fiabilidad del modelo.


Como se informó anteriormente por Decrypt, los investigadores han encontrado que el entrenamiento de modelos en datos sintéticos representa una espada de doble filo. Si bien ofrece una solución potencial a la escasez de datos, introduce nuevos riesgos de degradación del modelo y preocupaciones de fiabilidad con degradación comprobada después de varias iteraciones de entrenamiento.


En otras palabras, a medida que los modelos se entrenan con contenido generado por IA, pueden comenzar a amplificar imperfecciones sutiles en sus salidas. Estos bucles de retroalimentación pueden perpetuar y magnificar sesgos existentes, creando un efecto acumulativo que se vuelve cada vez más difícil de detectar y corregir.


El equipo de Fundamentos de OpenAI está desarrollando nuevos mecanismos de filtrado para mantener la calidad de los datos, implementando diferentes técnicas de validación para distinguir entre contenido sintético de alta calidad y potencialmente problemático. El equipo también está explorando enfoques de entrenamiento híbridos que combinan estratégicamente contenido generado por humanos y por IA para maximizar los beneficios de ambas fuentes mientras minimizan sus respectivos inconvenientes.


La optimización post-entrenamiento también ha ganado relevancia. Los investigadores están desarrollando nuevos métodos para mejorar el rendimiento del modelo después de la fase de entrenamiento inicial, lo que podría ofrecer una forma de mejorar las capacidades sin depender únicamente de la expansión del conjunto de datos de entrenamiento.


Dicho esto, GPT-5 sigue siendo un embrión de un modelo completo con un trabajo de desarrollo significativo por delante. Sam Altman, CEO de OpenAI, ha indicado que no estará listo para su implementación este año o el próximo. Este cronograma extendido podría resultar ventajoso, permitiendo a los investigadores abordar las limitaciones actuales y potencialmente descubrir nuevos métodos para la mejora del modelo, mejorando considerablemente GPT-5 antes de su eventual lanzamiento.


Editado por Josh Quittner y Sebastian Sinclair