OpenAI reveló el lunes su último modelo insignia llamado GPT-4o (“o” de “omni”), y aparentemente es lo más cerca que hemos estado de tener un asistente inteligente como el “Jarvis” en la película Iron Man.
El punto de venta es que ChatGPT-4o puede manejar diferentes modalidades, algo que la mayoría de los modelos de IA existentes no pueden hacer. Lo que esto significa es que GPT-4o puede aceptar y generar cualquier combinación de solicitudes de texto, audio e imagen.
La demostración presentada por el equipo en X (anteriormente Twitter) fue tan impresionante que mucha gente la promocionó. Una gran hazaña es que GPT-4o responde a las entradas de audio en tan solo 232 milisegundos, lo que es similar al tiempo de respuesta humano durante una conversación.
“Parece como la IA de las películas; y todavía me sorprende un poco que sea real”, escribió el director ejecutivo de OpenAI, Sam Altman, en una publicación de blog el lunes. "Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio".
OpenAI ha comenzado a implementar las funciones de texto e imagen de GPT-4o para los usuarios. En las próximas semanas, las capacidades de audio y video se lanzarán a "un pequeño grupo de socios confiables en la API", dijo la compañía.
No obstante, estas son algunas de las cosas que puede hacer con el modelo ChatGPT-4o.
Cosas que puedes hacer con GPT-4o
Crea imágenes con textos legibles
Hasta ahora, algunos generadores de imágenes de IA como Midjourney todavía tienen dificultades para crear imágenes con textos legibles. OpenAI dijo que GPT-4o ahora comprende mucho mejor las descripciones de texto y puede crear textos legibles en imágenes.
Fuente de la imagen: Traducción en tiempo real de OpenAI
En una situación en la que se necesita un traductor, GPT-4o puede actuar como tal. En una demostración en video, el equipo de OpenAI demostró que GPT-4o podía repetir algo dicho en inglés en español, tal vez en otros idiomas, y viceversa del español al inglés.
Traducción en tiempo real con GPT-4o pic.twitter.com/J1BsrxwYdE
– OpenAI (@OpenAI) 13 de mayo de 2024
Mira y cuenta
Para las personas con discapacidad visual, o simplemente por diversión, ChatGPT-4o puede mirar y decir lo que sucede a su alrededor a través de la cámara del teléfono. En un caso, la modelo pudo darse cuenta de que alguien estaba celebrando un cumpleaños cuando notó un pastel y una vela en la habitación.
@BeMyEyes con GPT-4o pic.twitter.com/nWb6sEWZlo
– OpenAI (@OpenAI) 13 de mayo de 2024
Solucionar problemas matemáticos
GPT-4o también puede ver problemas matemáticos en una hoja de papel o en una pantalla y darles la respuesta. No solo eso, también puede enseñarte y guiarte para que aprendas a resolver el problema.
Problemas matemáticos con GPT-4o y @khanacademy pic.twitter.com/RfKaYx5pTJ
– OpenAI (@OpenAI) 13 de mayo de 2024
IA en reuniones visuales
GPT-4o puede unirse a reuniones visuales y realizar conservaciones con los participantes. También puede ayudar a los usuarios a prepararse para las reuniones de entrevistas de trabajo.
Encuentro con IA con GPT-4o pic.twitter.com/rHkQ316MYj
– OpenAI (@OpenAI) 13 de mayo de 2024