OpenAI a dévoilé lundi son dernier modèle phare appelé GPT-4o (« o » pour « omni »), et c'est apparemment le plus proche que nous ayons eu d'un assistant intelligent comme le « Jarvis » dans le film Iron Man.

L’argument de vente est que ChatGPT-4o peut gérer différentes modalités, ce que la plupart des modèles d’IA existants ne peuvent pas faire. Cela signifie que GPT-4o peut accepter et générer n'importe quelle combinaison de demandes de texte, d'audio et d'image.

La démo mise en scène présentée par l'équipe sur X (anciennement Twitter) était si impressionnante que de nombreuses personnes l'ont mise en avant. L'un des grands exploits est que GPT-4o répond aux entrées audio en aussi peu que 232 millisecondes, ce qui est similaire au temps de réponse humain lors d'une conversation.

« Cela ressemble à l’IA des films ; et cela me surprend toujours un peu que ce soit réel », a écrit lundi le PDG d’OpenAI, Sam Altman, dans un article de blog. « Atteindre des temps de réponse et une expressivité au niveau humain s’avère être un grand changement. »

OpenAI a commencé à déployer les fonctionnalités de texte et d'image de GPT-4o auprès des utilisateurs. Dans les semaines à venir, les capacités audio et vidéo seront transmises à « un petit groupe de partenaires de confiance dans l'API », a indiqué la société.

Néanmoins, voici certaines des choses que vous pouvez faire avec le modèle ChatGPT-4o.

Choses que vous pouvez faire avec GPT-4o

Créez des images avec des textes lisibles

Jusqu'à présent, certains générateurs d'images IA comme Midjourney ont encore du mal à créer des images avec des textes lisibles. OpenAI a déclaré que GPT-4o comprend désormais beaucoup mieux les descriptions de texte et peut créer des textes lisibles sur les images.

Source de l'image : Traduction en temps réel OpenAI

Dans une situation où un traducteur est nécessaire, GPT-4o peut faire office de traducteur. Dans une démonstration vidéo, l’équipe d’OpenAI a montré que GPT-4o pouvait répéter quelque chose dit en anglais en espagnol, peut-être dans d’autres langues, et inversement de l’espagnol vers l’anglais.

Traduction en temps réel avec GPT-4o pic.twitter.com/J1BsrxwYdE

– OpenAI (@OpenAI) 13 mai 2024

Regardez et dites

Pour les personnes malvoyantes, ou simplement pour le plaisir, ChatGPT-4o peut regarder et raconter ce qui se passe autour de vous grâce à la caméra du téléphone. Dans un cas, le mannequin a pu dire que quelqu'un célébrait son anniversaire lorsqu'il a remarqué un gâteau et une bougie dans la pièce.

@BeMyEyes avec GPT-4o pic.twitter.com/nWb6sEWZlo

– OpenAI (@OpenAI) 13 mai 2024

Résoudre des problèmes mathématiques

GPT-4o peut également examiner des problèmes mathématiques sur une feuille de papier ou un écran d'affichage et y donner la réponse. De plus, il peut également vous guider et vous guider pour apprendre à résoudre le problème.

Problèmes mathématiques avec GPT-4o et @khanacademy pic.twitter.com/RfKaYx5pTJ

– OpenAI (@OpenAI) 13 mai 2024

L'IA dans les réunions visuelles

GPT-4o peut participer à des réunions visuelles et organiser des conservations avec les participants. Il peut également aider les utilisateurs à se préparer aux entretiens d’embauche.

Rencontrer l'IA avec GPT-4o pic.twitter.com/rHkQ316MYj

– OpenAI (@OpenAI) 13 mai 2024