O criador do ChatGPT, OpenAI, anunciou seu mais recente modelo de IA, GPT-4o, um chatbot de IA mais conversador e humano, que pode interpretar o áudio e o vídeo de um usuário e responder em tempo real.

Uma série de demonstrações lançadas pela empresa mostra o GPT-4 Omni ajudando usuários em potencial com coisas como preparação para entrevistas – garantindo que eles estejam apresentáveis ​​para a entrevista – e ligando para um agente de atendimento ao cliente para obter um iPhone substituto, traduzir uma conversa bilíngue em real tempo.

As demonstrações mostram que ele pode compartilhar piadas de pai, ser o juiz de uma partida de pedra-papel-tesoura entre dois usuários e responder com sarcasmo quando solicitado. Uma demonstração mostra até mesmo o ChatGPT sendo apresentado ao cachorrinho do usuário pela primeira vez.

"Bem, olá, Bowser! Você não é simplesmente uma coisinha mais adorável?" o chatbot exclamou.

Diga olá ao GPT-4o, nosso novo modelo principal que pode raciocinar através de áudio, visão e texto em tempo real: https://t.co/MYHZB79UqNText e entrada de imagem lançada hoje em API e ChatGPT com voz e vídeo no próximas semanas. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 de maio de 2024

“Parece IA de cinema; e ainda me surpreende um pouco que seja real”, disse o CEO da empresa, Sam Altman, em uma postagem no blog de 13 de maio.

“Chegar a tempos de resposta e expressividade de nível humano acaba sendo uma grande mudança.”

Uma versão de entrada somente de texto e imagem foi lançada em 13 de maio, com a versão completa prevista para ser lançada nas próximas semanas, disse a OpenAI em um post X recente.

O GPT-4o estará disponível para usuários ChatGPT pagos e gratuitos e poderá ser acessado a partir da API do ChatGPT.

OpenAI disse que o “o” em GPT-4o significa “omni” – que busca marcar um passo em direção a interações mais naturais entre humanos e computadores.

Apresentando o GPT-4o, nosso novo modelo que pode raciocinar entre texto, áudio e vídeo em tempo real. É extremamente versátil, divertido de brincar e é um passo em direção a uma forma muito mais natural de interação humano-computador (e até mesmo humana). -interação computador-computador): pic.twitter.com/VLG7TJ1JQx

-Greg Brockman (@gdb) 13 de maio de 2024

A capacidade do GPT-4o de processar qualquer entrada de texto, áudio e imagem ao mesmo tempo é um avanço considerável em comparação com as ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que muitas vezes “perde muitas informações” quando forçado a realizar múltiplas tarefas. .

Relacionado: Apple finalizando acordo com OpenAI para integração ChatGPT iPhone: Relatório

OpenAI disse que “o GPT-4o é especialmente melhor na compreensão de visão e áudio em comparação com os modelos existentes”, o que inclui até mesmo captar as emoções e os padrões de respiração do usuário.

Também é “muito mais rápido” e “50% mais barato” que o GPT-4 Turbo na API da OpenAI.

A nova ferramenta de IA pode responder a entradas de áudio em apenas 2,3 segundos, com um tempo médio de 3,2 segundos, afirma a OpenAI, que afirma ser semelhante aos tempos de resposta humana em uma conversa normal.

Revista: ​​Como impedir o apocalipse da inteligência artificial: David Brin, autor do Uplift