A OpenAI revelou na segunda-feira seu mais recente modelo carro-chefe chamado GPT-4o (“o” para “omni”), e é aparentemente o mais próximo que chegamos de ter um assistente inteligente como o “Jarvis” no filme Homem de Ferro.

O ponto de venda é que o ChatGPT-4o pode lidar com diferentes modalidades, o que a maioria dos modelos de IA existentes não consegue fazer. O que isso significa é que o GPT-4o pode aceitar e gerar qualquer combinação de solicitações de texto, áudio e imagem.

A demonstração apresentada pela equipe no X (antigo Twitter) foi tão impressionante que muitas pessoas a entusiasmaram. Um grande feito é que o GPT-4o responde às entradas de áudio em apenas 232 milissegundos, o que é semelhante ao tempo de resposta humana durante uma conversa.

“Parece IA de cinema; e ainda é um pouco surpreendente para mim que seja real”, escreveu o CEO da OpenAI, Sam Altman, em um blog na segunda-feira. “Chegar a tempos de resposta e expressividade de nível humano acaba sendo uma grande mudança.”

OpenAI começou a lançar recursos de texto e imagem do GPT-4o para os usuários. Nas próximas semanas, os recursos de áudio e vídeo serão liberados para “um pequeno grupo de parceiros confiáveis ​​na API”, disse a empresa.

Não obstante, aqui estão algumas coisas que você pode fazer com o modelo ChatGPT-4o.

Coisas que você pode fazer com GPT-4o

Crie imagens com textos legíveis

Até agora, alguns geradores de imagens de IA como o Midjourney ainda lutam para criar imagens com textos legíveis. OpenAI disse que o GPT-4o agora entende descrições de texto muito melhor e pode tornar textos legíveis em imagens.

Fonte da imagem: Tradução em tempo real OpenAI

Numa situação em que é necessário um tradutor, o GPT-4o pode atuar como tal. Em uma demonstração em vídeo, a equipe da OpenAI mostrou que o GPT-4o poderia repetir algo dito em inglês em espanhol, talvez em outros idiomas, e voltar do espanhol para o inglês.

Tradução em tempo real com GPT-4o pic.twitter.com/J1BsrxwYdE

– OpenAI (@OpenAI) 13 de maio de 2024

Olhe e conte

Para pessoas com deficiência visual, ou apenas por diversão, o ChatGPT-4o pode ver e contar o que está acontecendo ao seu redor através da câmera do telefone. Em um caso, a modelo conseguiu perceber que alguém estava comemorando um aniversário quando notou um bolo e uma vela na sala.

@BeMyEyes com GPT-4o pic.twitter.com/nWb6sEWZlo

– OpenAI (@OpenAI) 13 de maio de 2024

Resolva problemas de matemática

O GPT-4o também pode analisar problemas matemáticos em uma folha de papel ou tela e dar-lhes a resposta. Além disso, também pode orientar e orientar você para aprender como resolver o problema.

Problemas matemáticos com GPT-4o e @khanacademy pic.twitter.com/RfKaYx5pTJ

– OpenAI (@OpenAI) 13 de maio de 2024

IA em reuniões visuais

O GPT-4o pode participar de reuniões visuais e realizar conservações com os participantes. Também pode ajudar os usuários a se prepararem para reuniões de entrevistas de emprego.

Encontrando IA com GPT-4o pic.twitter.com/rHkQ316MYj

– OpenAI (@OpenAI) 13 de maio de 2024