Le créateur de ChatGPT, OpenAI, a annoncé son dernier modèle d'IA, GPT-4o, un chatbot IA plus bavard et plus humain, qui peut interpréter l'audio et la vidéo d'un utilisateur et répondre en temps réel.

Une série de démos publiées par la société montre que GPT-4 Omni aide les utilisateurs potentiels dans des tâches telles que la préparation d'un entretien - en s'assurant qu'ils ont l'air présentables pour l'entretien - et en appelant un agent du service client pour obtenir un iPhone de remplacement, traduire une conversation bilingue en temps réel. temps.

Les démos montrent qu'il peut partager des blagues de papa, être le juge d'un match pierre-papier-ciseaux entre deux utilisateurs et répondre avec sarcasme lorsqu'on lui demande. Une démo montre même que ChatGPT est présenté pour la première fois au chiot de l’utilisateur.

"Eh bien, bonjour, Bowser ! N'es-tu pas juste la petite chose la plus adorable ?" s'exclama le chatbot.

Dites bonjour à GPT-4o, notre nouveau modèle phare qui peut raisonner à travers l'audio, la vision et le texte en temps réel : https://t.co/MYHZB79UqNLa saisie de texte et d'image est déployée aujourd'hui dans l'API et ChatGPT avec voix et vidéo dans le semaines à venir. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 mai 2024

« Cela ressemble à l’IA des films ; et cela me surprend encore un peu que ce soit réel », a déclaré le PDG de l’entreprise, Sam Altman, dans un article de blog du 13 mai.

« Atteindre des temps de réponse et une expressivité au niveau humain s’avère être un grand changement. »

Une version de saisie de texte et d'images uniquement a été lancée le 13 mai, et la version complète devrait être déployée dans les semaines à venir, a déclaré OpenAI dans un récent article X.

GPT-4o sera disponible pour les utilisateurs ChatGPT payants et gratuits et sera accessible depuis l'API de ChatGPT.

OpenAI a déclaré que le « o » dans GPT-4o signifie « omni » – ce qui cherche à marquer une étape vers des interactions homme-machine plus naturelles.

Présentation de GPT-4o, notre nouveau modèle capable de raisonner sur du texte, de l'audio et de la vidéo en temps réel. Il est extrêmement polyvalent, amusant à jouer et constitue une étape vers une forme beaucoup plus naturelle d'interaction homme-machine (et même humaine). -interaction ordinateur-ordinateur) : pic.twitter.com/VLG7TJ1JQx

– Greg Brockman (@gdb) 13 mai 2024

La capacité de GPT-4o à traiter simultanément n'importe quelle entrée de texte, d'audio et d'image constitue une avancée considérable par rapport aux outils d'IA antérieurs d'OpenAI, tels que ChatGPT-4, qui « perdent souvent beaucoup d'informations » lorsqu'ils sont obligés d'effectuer plusieurs tâches à la fois. .

En relation : Apple finalise un accord avec OpenAI pour l'intégration de ChatGPT sur iPhone : rapport

OpenAI a déclaré que « GPT-4o est particulièrement meilleur en termes de compréhension visuelle et audio par rapport aux modèles existants », ce qui inclut même la détection des émotions et des schémas respiratoires d'un utilisateur.

Il est également « beaucoup plus rapide » et « 50 % moins cher » que GPT-4 Turbo dans l’API d’OpenAI.

Le nouvel outil d'IA peut répondre aux entrées audio en seulement 2,3 secondes, avec un temps moyen de 3,2 secondes, affirme OpenAI, ce qui, selon lui, est similaire aux temps de réponse humains dans une conversation ordinaire.

Magazine : Comment arrêter l'apocalypse de l'intelligence artificielle : David Brin, auteur d'Uplift