OpenAI reveló el lunes su último modelo insignia llamado GPT-4o (“o” de “omni”), y aparentemente es lo más cerca que hemos estado de tener un asistente inteligente como el “Jarvis” en la película Iron Man.

El punto de venta es que ChatGPT-4o puede manejar diferentes modalidades, algo que la mayoría de los modelos de IA existentes no pueden hacer. Lo que esto significa es que GPT-4o puede aceptar y generar cualquier combinación de solicitudes de texto, audio e imagen.

La demostración presentada por el equipo en X (anteriormente Twitter) fue tan impresionante que mucha gente la promocionó. Una gran hazaña es que GPT-4o responde a las entradas de audio en tan solo 232 milisegundos, lo que es similar al tiempo de respuesta humano durante una conversación.

“Parece como la IA de las películas; y todavía me sorprende un poco que sea real”, escribió el director ejecutivo de OpenAI, Sam Altman, en una publicación de blog el lunes. "Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio".

OpenAI ha comenzado a implementar las funciones de texto e imagen de GPT-4o para los usuarios. En las próximas semanas, las capacidades de audio y video se lanzarán a "un pequeño grupo de socios confiables en la API", dijo la compañía.

No obstante, estas son algunas de las cosas que puede hacer con el modelo ChatGPT-4o.

Cosas que puedes hacer con GPT-4o

Crea imágenes con textos legibles

Hasta ahora, algunos generadores de imágenes de IA como Midjourney todavía tienen dificultades para crear imágenes con textos legibles. OpenAI dijo que GPT-4o ahora comprende mucho mejor las descripciones de texto y puede crear textos legibles en imágenes.

Fuente de la imagen: Traducción en tiempo real de OpenAI

En una situación en la que se necesita un traductor, GPT-4o puede actuar como tal. En una demostración en video, el equipo de OpenAI demostró que GPT-4o podía repetir algo dicho en inglés en español, tal vez en otros idiomas, y viceversa del español al inglés.

Traducción en tiempo real con GPT-4o pic.twitter.com/J1BsrxwYdE

– OpenAI (@OpenAI) 13 de mayo de 2024

Mira y cuenta

Para las personas con discapacidad visual, o simplemente por diversión, ChatGPT-4o puede mirar y decir lo que sucede a su alrededor a través de la cámara del teléfono. En un caso, la modelo pudo darse cuenta de que alguien estaba celebrando un cumpleaños cuando notó un pastel y una vela en la habitación.

@BeMyEyes con GPT-4o pic.twitter.com/nWb6sEWZlo

– OpenAI (@OpenAI) 13 de mayo de 2024

Solucionar problemas matemáticos

GPT-4o también puede ver problemas matemáticos en una hoja de papel o en una pantalla y darles la respuesta. No solo eso, también puede enseñarte y guiarte para que aprendas a resolver el problema.

Problemas matemáticos con GPT-4o y @khanacademy pic.twitter.com/RfKaYx5pTJ

– OpenAI (@OpenAI) 13 de mayo de 2024

IA en reuniones visuales

GPT-4o puede unirse a reuniones visuales y realizar conservaciones con los participantes. También puede ayudar a los usuarios a prepararse para las reuniones de entrevistas de trabajo.

Encuentro con IA con GPT-4o pic.twitter.com/rHkQ316MYj

– OpenAI (@OpenAI) 13 de mayo de 2024