Odaily Planet Daily News OpenAI a publié son dernier modèle phare, le GPT-4o, qui peut déduire l'audio, la vision et le texte en temps réel. Le concept principal est un assistant vocal interactif anthropomorphique, surnaturel et à très faible latence. Selon les informations relatives au site officiel d'OpenAI et au compte officiel de Générer toute combinaison de sortie texte, audio et image. Il peut répondre à une entrée audio en 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire aux temps de réaction humains dans une conversation. Il fonctionne à égalité avec GPT-4 Turbo en anglais et en code, avec des améliorations significatives sur les textes en langue autre que l'anglais, tout en disposant d'une API plus rapide et 50 % moins chère. GPT-4o fonctionne particulièrement bien en compréhension visuelle et audio par rapport aux modèles existants. La saisie de texte et d'images est déployée aujourd'hui sur l'API et ChatGPT, et la saisie vocale et vidéo sera disponible dans les semaines à venir.