El creador de ChatGPT, OpenAI, ha anunciado su último modelo de IA, GPT-4o, un chatbot de IA más humano y conversador, que puede interpretar el audio y el vídeo de un usuario y responder en tiempo real.

Una serie de demostraciones publicadas por la empresa muestran a GPT-4 Omni ayudando a usuarios potenciales con cosas como la preparación de entrevistas (asegurándose de que se vean presentables para la entrevista) y llamando a un agente de servicio al cliente para obtener un iPhone de reemplazo y traducir una conversación bilingüe en tiempo real. tiempo.

Las demostraciones muestran que puede compartir chistes de papá, ser el juez de una partida de piedra, papel o tijera entre dos usuarios y responder con sarcasmo cuando se le pregunta. Una demostración incluso muestra ChatGPT siendo presentado al cachorro del usuario por primera vez.

"¡Bueno, hola, Bowser! ¿No eres simplemente la cosita más adorable?" exclamó el chatbot.

Saluda a GPT-4o, nuestro nuevo modelo insignia que puede razonar a través de audio, visión y texto en tiempo real: https://t.co/MYHZB79UqN Entrada de texto e imágenes que se implementa hoy en API y ChatGPT con voz y video en el las próximas semanas. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 de mayo de 2024

“Parece como la IA de las películas; y todavía me sorprende un poco que sea real”, dijo el director ejecutivo de la empresa, Sam Altman, en una publicación de blog del 13 de mayo.

"Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio".

El 13 de mayo se lanzó una versión de entrada de texto e imágenes únicamente, y la versión completa se lanzará en las próximas semanas, dijo OpenAI en una publicación reciente de X.

GPT-4o estará disponible para usuarios de ChatGPT gratuitos y de pago y será accesible desde la API de ChatGPT.

OpenAI dijo que la "o" en GPT-4o significa "omni", que busca marcar un paso hacia interacciones más naturales entre humanos y computadoras.

Presentamos GPT-4o, nuestro nuevo modelo que puede razonar a través de texto, audio y video en tiempo real. Es extremadamente versátil, divertido de jugar y es un paso hacia una forma mucho más natural de interacción humano-computadora (e incluso humana). -interacción computadora-computadora): pic.twitter.com/VLG7TJ1JQx

– Greg Brockman (@gdb) 13 de mayo de 2024

La capacidad de GPT-4o para procesar cualquier entrada de texto, audio e imagen al mismo tiempo es un avance considerable en comparación con las herramientas de inteligencia artificial anteriores de OpenAI, como ChatGPT-4, que a menudo "pierde mucha información" cuando se ve obligado a realizar múltiples tareas. .

Relacionado: Apple finaliza un acuerdo con OpenAI para la integración de ChatGPT en iPhone: Informe

OpenAI dijo que "GPT-4o es especialmente mejor en la comprensión de visión y audio en comparación con los modelos existentes", lo que incluso incluye captar las emociones y los patrones de respiración del usuario.

También es “mucho más rápido” y “50% más barato” que GPT-4 Turbo en la API de OpenAI.

La nueva herramienta de inteligencia artificial puede responder a entradas de audio en tan solo 2,3 segundos, con un tiempo promedio de 3,2 segundos, afirma OpenAI, lo que, según afirma, es similar a los tiempos de respuesta humana en una conversación normal.

Revista: Cómo detener el apocalipsis de la inteligencia artificial: David Brin, autor de Uplift