OpenAI’s Latest Upgrade Essentially Lets Users Livestream With ChatGPT

Cointelegraph · 2024-05-14T00:33:07.000Z

ChatGPT creator OpenAI has announced its latest AI model, GPT-4o, a chattier, more humanlike AI chatbot, which can interpret a user’s audio and video and respond in real time. A series of demos released by the firm shows GPT-4 Omni helping potential users with things like interview preparation — by making sure they look presentable for the interview — and calling a customer service agent to get a replacement iPhone, translate a bilingual conversation in real time. Demos show it can share dad jokes, be the judge of a rock-paper-scissors match between two users, and respond with sarcasm when asked. One demo even shows ChatGPT being introduced to the user’s puppy for the first time. "Well hello, Bowser! Aren't you just the most adorable little thing?" the chatbot exclaimed. Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqNText and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx — OpenAI (@OpenAI) May 13, 2024 “It feels like AI from the movies; and it’s still a bit surprising to me that it’s real,” said the firm’s CEO, Sam Altman, in a May 13 blog post. “Getting to human-level response times and expressiveness turns out to be a big change.” A text and image-only input version was launched on May 13, with the full version set to roll out in the coming weeks, OpenAI said in a recent X post. GPT-4o will be available to both paid and free ChatGPT users and will be accessible from ChatGPT’s API. OpenAI said the “o” in GPT-4o stands for “omni” — which seeks to mark a step toward more natural human-computer interactions. Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx — Greg Brockman (@gdb) May 13, 2024 GPT-4o’s ability to process any input of text, audio and image at the same time is a considerable advancement compared with OpenAI’s earlier AI tools, such as ChatGPT-4, which often “loses a lot of information” when forced to multi-task. Related: Apple finalizing deal with OpenAI for ChatGPT iPhone integration: Report OpenAI said “GPT-4o is especially better at vision and audio understanding compared to existing models,” which even includes picking up on a user’s emotions and breathing patterns. It is also “much faster” and “50% cheaper” than GPT-4 Turbo in OpenAI’s API. The new AI tool can respond to audio inputs in as little as 2.3 seconds, with an average time of 3.2 seconds, OpenAI claims, which it says is similar to human response times in an ordinary conversation. Magazine: How to stop the artificial intelligence apocalypse: David Brin, Uplift author

O criador do ChatGPT, OpenAI, anunciou seu mais recente modelo de IA, GPT-4o, um chatbot de IA mais conversador e humano, que pode interpretar o áudio e o vídeo de um usuário e responder em tempo real.
Uma série de demonstrações lançadas pela empresa mostra o GPT-4 Omni ajudando usuários em potencial com coisas como preparação para entrevistas – garantindo que eles estejam apresentáveis ​​para a entrevista – e ligando para um agente de atendimento ao cliente para obter um iPhone substituto, traduzir uma conversa bilíngue em real tempo.
As demonstrações mostram que ele pode compartilhar piadas de pai, ser o juiz de uma partida de pedra-papel-tesoura entre dois usuários e responder com sarcasmo quando solicitado. Uma demonstração mostra até mesmo o ChatGPT sendo apresentado ao cachorrinho do usuário pela primeira vez.
"Bem, olá, Bowser! Você não é simplesmente uma coisinha mais adorável?" o chatbot exclamou.
Diga olá ao GPT-4o, nosso novo modelo principal que pode raciocinar através de áudio, visão e texto em tempo real: https://t.co/MYHZB79UqNText e entrada de imagem lançada hoje em API e ChatGPT com voz e vídeo no próximas semanas. pic.twitter.com/uuthKZyzYx
– OpenAI (@OpenAI) 13 de maio de 2024
“Parece IA de cinema; e ainda me surpreende um pouco que seja real”, disse o CEO da empresa, Sam Altman, em uma postagem no blog de 13 de maio.
“Chegar a tempos de resposta e expressividade de nível humano acaba sendo uma grande mudança.”
Uma versão de entrada somente de texto e imagem foi lançada em 13 de maio, com a versão completa prevista para ser lançada nas próximas semanas, disse a OpenAI em um post X recente.
O GPT-4o estará disponível para usuários ChatGPT pagos e gratuitos e poderá ser acessado a partir da API do ChatGPT.
OpenAI disse que o “o” em GPT-4o significa “omni” – que busca marcar um passo em direção a interações mais naturais entre humanos e computadores.
Apresentando o GPT-4o, nosso novo modelo que pode raciocinar entre texto, áudio e vídeo em tempo real. É extremamente versátil, divertido de brincar e é um passo em direção a uma forma muito mais natural de interação humano-computador (e até mesmo humana). -interação computador-computador): pic.twitter.com/VLG7TJ1JQx
-Greg Brockman (@gdb) 13 de maio de 2024
A capacidade do GPT-4o de processar qualquer entrada de texto, áudio e imagem ao mesmo tempo é um avanço considerável em comparação com as ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que muitas vezes “perde muitas informações” quando forçado a realizar múltiplas tarefas. .
Relacionado: Apple finalizando acordo com OpenAI para integração ChatGPT iPhone: Relatório
OpenAI disse que “o GPT-4o é especialmente melhor na compreensão de visão e áudio em comparação com os modelos existentes”, o que inclui até mesmo captar as emoções e os padrões de respiração do usuário.
Também é “muito mais rápido” e “50% mais barato” que o GPT-4 Turbo na API da OpenAI.
A nova ferramenta de IA pode responder a entradas de áudio em apenas 2,3 segundos, com um tempo médio de 3,2 segundos, afirma a OpenAI, que afirma ser semelhante aos tempos de resposta humana em uma conversa normal.
Revista: ​​Como impedir o apocalipse da inteligência artificial: David Brin, autor do Uplift

A atualização mais recente do OpenAI permite essencialmente que os usuários transmitam ao vivo com ChatGPT

Explore mais do Criador

Últimas Notícias