По данным Foresight News, OpenAI планирует представить функции голосового и графического общения в ChatGPT в течение следующих двух недель для Plus и корпоративных пользователей. Функция голосового разговора будет доступна на устройствах iOS и Android, а функция графического разговора будет доступна на всех платформах.
Голосовая функция поддерживается новой моделью преобразования текста в речь, которая может генерировать человеческий звук из текста и нескольких секунд образца голоса. Он использует систему распознавания речи с открытым исходным кодом Whisper для расшифровки разговорной речи в текст, генерации ответа, а затем преобразования ответа обратно в речь для воспроизведения для пользователя. Функция изображения основана на мультимодальных GPT-3.5 и GPT-4, применяя навыки языкового рассуждения к различным изображениям, таким как фотографии, снимки экрана и документы, содержащие текст и изображения. Пользователи могут показать одно или несколько изображений ChatGPT, который попытается распознать контент, о котором пользователь хочет узнать, и предоставить соответствующий ответ, например, изучение содержимого холодильника для планирования еды или анализ сложных диаграмм данных, связанных с работой.