Selon Foresight News, OpenAI prévoit d'introduire des fonctionnalités de conversation vocale et image dans ChatGPT au cours des deux prochaines semaines pour les utilisateurs Plus et entreprises. La fonctionnalité de conversation vocale sera disponible sur les appareils iOS et Android, tandis que la fonctionnalité de conversation par image sera accessible sur toutes les plateformes.
La fonction vocale est prise en charge par un nouveau modèle de synthèse vocale qui peut générer un son de type humain à partir de texte et de quelques secondes d'échantillon de voix. Il utilise le système de reconnaissance vocale open source Whisper pour transcrire le langage parlé en texte, générer une réponse, puis reconvertir la réponse en parole à lire pour l'utilisateur. La fonctionnalité d'image est alimentée par GPT-3.5 et GPT-4 multimodaux, appliquant des compétences de raisonnement linguistique à diverses images, telles que des photos, des captures d'écran et des documents contenant du texte et des images. Les utilisateurs peuvent afficher une ou plusieurs images sur ChatGPT, qui tenteront de reconnaître le contenu sur lequel l'utilisateur souhaite se renseigner et fourniront une réponse correspondante, comme explorer le contenu d'un réfrigérateur pour planifier des repas ou analyser des graphiques de données complexes liés au travail.