Odaily Planet Daily News OpenAI lançou seu mais recente modelo GPT-4o, que pode inferir áudio, visão e texto em tempo real. O conceito principal é um assistente interativo de voz pessoal antropomórfico, sobrenatural e de latência ultrabaixa. De acordo com informações relacionadas ao site oficial da OpenAI e à conta oficial do Gere qualquer combinação de saída de texto, áudio e imagem. Ele pode responder à entrada de áudio em 232 milissegundos, com uma média de 320 milissegundos, semelhante ao tempo de reação humana durante uma conversa. Ele tem desempenho equivalente ao GPT-4 Turbo em inglês e código, com melhorias significativas em textos em idiomas diferentes do inglês, além de ter uma API mais rápida e 50% mais barata. O GPT-4o tem um desempenho particularmente bom na compreensão visual e sonora em comparação com os modelos existentes. A entrada de texto e imagem está sendo lançada hoje na API e no ChatGPT, com entrada de voz e vídeo chegando nas próximas semanas.