Podle Foresight News plánuje OpenAI zavést funkce hlasové a obrazové konverzace v ChatGPT během příštích dvou týdnů pro Plus a podnikové uživatele. Funkce hlasové konverzace bude k dispozici na zařízeních iOS a Android, zatímco funkce konverzace pomocí obrázků bude dostupná na všech platformách.

Funkce hlasu je podporována novým modelem převodu textu na řeč, který dokáže z textu a několika sekund ukázkového hlasu generovat zvuk podobný lidskému. Využívá open-source systém rozpoznávání řeči Whisper k přepisu mluveného jazyka do textu, vygenerování odpovědi a následné převedení odpovědi zpět do řeči, aby ji mohl uživatel přehrát. Funkce obrazu je poháněna multimodálními GPT-3.5 a GPT-4, které aplikují dovednosti jazykového uvažování na různé obrázky, jako jsou fotografie, snímky obrazovky a dokumenty obsahující text a obrázky. Uživatelé mohou ukázat jeden nebo více obrázků ChatGPT, který se pokusí rozpoznat obsah, na který se chce uživatel zeptat, a poskytnout odpovídající odpověď, jako je prozkoumání obsahu ledničky za účelem plánování jídel nebo analýza složitých pracovních datových grafů.