OpenAI a annoncé qu'à partir du 5 décembre 2024, il y aura une série de lancements de nouveaux produits ou de démonstrations sur une période de 12 jours (un événement par jour ouvrable). Bien que nous ne sachions pas encore avec certitude le contenu de chaque événement, plusieurs sources et spéculations suggèrent que cela pourrait inclure les éléments suivants :
1. Lancement public de l'outil de conversion texte-vidéo Sora
Sora est un nouveau produit publié par OpenAI en début d'année, et il est actuellement en phase de test privé sur invitation. L'ancien directeur technique Mira Murati a déclaré que Sora pourrait être rendu public aux utilisateurs d'ici la fin de l'année, donc il y a de fortes chances que Sora soit lancé lors de ces 12 conférences. Dans le domaine de l'IA, la technologie de conversion texte-vidéo est un sujet de recherche très en vogue. Par exemple, Google a également lancé son dernier modèle vidéo génératif d'intelligence artificielle, Veo. Le lancement de Sora fournira aux utilisateurs de nouvelles façons de créer du contenu, par exemple, les utilisateurs peuvent entrer un script d'histoire, et Sora peut générer le contenu vidéo correspondant, ce qui a de vastes perspectives d'application dans la production cinématographique, la création publicitaire, la production de vidéos éducatives, etc.
2. Un nouveau modèle de raisonnement
Selon des rapports de médias tels que The Verge, le nouveau produit comprend un nouveau modèle de raisonnement, qui pourrait être un modèle d'IA de raisonnement complet similaire au modèle o1. La capacité de raisonnement est cruciale dans l'intelligence artificielle, par exemple dans le traitement de problèmes scientifiques et mathématiques complexes, ainsi que dans l'analyse logique. Précédemment, OpenAI avait prévu de lancer un modèle axé sur le raisonnement, tel que le modèle « Fraise » mentionné auparavant, qui est également un produit d'IA axé sur le raisonnement. Le nouveau modèle de raisonnement pourrait se révéler plus efficace et précis dans le traitement de tâches complexes, contribuant à renforcer la compétitivité d'OpenAI dans le domaine du raisonnement en IA, et pourrait également être appliqué dans des scénarios médicaux, de recherche, etc., nécessitant un raisonnement logique complexe.
3. Nouvelles voix et améliorations de fonctionnalités du mode vocal de ChatGPT
1. Nouvelle voix
OpenAI pourrait ajouter une voix spéciale au mode vocal de ChatGPT (des rumeurs disent qu'il pourrait s'agir d'une voix de Père Noël), et des utilisateurs ont déjà découvert dans le code que le bouton du mode vocal peut prendre la forme de flocons de neige, ce qui pourrait être un indice lié à la nouvelle voix. L'ajout de cette nouvelle voix pourrait offrir aux utilisateurs une expérience d'interaction plus diversifiée, par exemple lors de fêtes ou de scénarios thématiques spécifiques, une voix spéciale pourrait accroître le plaisir et l'immersion.
2. Améliorations de fonctionnalités
Le mode vocal avancé de ChatGPT présente des marges d'amélioration, notamment la possibilité d'accéder à des recherches en temps réel sur Internet et de se connecter à des caméras pour analyser le monde réel. Si l'accès à des recherches en temps réel est mis en œuvre, ChatGPT pourra fournir des informations plus précises et actualisées, ne se limitant plus aux connaissances des données d'entraînement précédentes ; la connexion à des caméras pour analyser le monde réel pourrait également étendre son application dans des scénarios tels que l'Internet des objets et les maisons intelligentes, par exemple pour identifier l'état de l'environnement intérieur ou effectuer une surveillance de sécurité.
4. Autres contenus potentiels à publier
1. Déverrouillage de la fonction de génération d'images du modèle GPT - 4o
La fonction de génération d'images du modèle GPT - 4o, qui reste verrouillée, a montré des résultats impressionnants et des capacités de contrôle lors de démonstrations antérieures, ce modèle ayant également des capacités d'analyse vidéo natives. Si la fonction de génération d'images est déverrouillée, alors le GPT - 4o aura des capacités plus complètes en matière de génération de contenu multimédia, permettant aux utilisateurs de l'utiliser pour la création d'images, le design, etc.
2. Aperçu du modèle o2 ou GPT - 5o
Les internautes sont impatients de découvrir l'aperçu du modèle o2 ou GPT - 5o. Si des aperçus connexes peuvent être vus lors de la conférence de lancement, cela permettra aux utilisateurs et aux développeurs de comprendre à l'avance la direction de développement des futurs modèles d'OpenAI, ce qui pourrait inclure des informations sur l'architecture, l'amélioration des performances, de nouvelles fonctionnalités, etc., et cela pourrait également influencer les tendances de développement de l'industrie.
3. Présentation anticipée de l'outil de conversion texte-voix et du cadre d'agent IA codé sous le nom de « Opérateur »
L'outil de synthèse vocale d'OpenAI et le cadre d'agent IA codé sous le nom de « Opérateur » devraient être lancés l'année prochaine, mais il est également possible qu'ils soient présentés dans les deux prochaines semaines. L'outil de synthèse vocale peut jouer un rôle dans des domaines tels que l'interaction vocale et la production de livres audio ; le cadre d'agent IA aidera à construire des agents d'intelligence artificielle plus intelligents et efficaces, pouvant être appliqués dans le service client intelligent, la gestion des processus automatisés, etc.