Odaily Planet Daily News OpenAI lanzó su último modelo insignia, GPT-4o, que puede inferir audio, visión y texto en tiempo real. El concepto principal es un asistente interactivo de voz personal antropomórfico, sobrenatural y de latencia ultrabaja. Según información relacionada con el sitio web oficial de OpenAI y la cuenta oficial de Genera cualquier combinación de salida de texto, audio e imagen. Puede responder a una entrada de audio en 232 milisegundos, con un promedio de 320 milisegundos, similar a los tiempos de reacción humana en una conversación. Funciona a la par con GPT-4 Turbo en inglés y código, con mejoras significativas en texto en idiomas distintos del inglés, al tiempo que tiene una API más rápida y un 50% más barata. GPT-4o funciona particularmente bien en comprensión visual y auditiva en comparación con los modelos existentes. La entrada de texto e imágenes se está implementando en la API y ChatGPT hoy, y la entrada de voz y video llegará en las próximas semanas.