Відповідно до Foresight News, OpenAI планує запровадити функції розмови голосу та зображення в ChatGPT протягом наступних двох тижнів для користувачів Plus і корпоративних користувачів. Функція голосової розмови буде доступна на пристроях iOS і Android, а функція розмови за зображенням буде доступна на всіх платформах.
Функція голосу підтримується новою моделлю перетворення тексту в мовлення, яка може генерувати людський звук із тексту та кількох секунд зразка голосу. Він використовує систему розпізнавання мовлення з відкритим кодом Whisper, щоб транскрибувати розмовну мову в текст, створити відповідь, а потім перетворити відповідь назад у мову для відтворення для користувача. Функція зображення працює на основі мультимодальних GPT-3.5 і GPT-4, застосовуючи навички мовного мислення до різних зображень, таких як фотографії, знімки екрана та документи, що містять текст і зображення. Користувачі можуть показати одне або кілька зображень у ChatGPT, який спробує розпізнати вміст, про який користувач хоче запитати, і надати відповідну відповідь, наприклад досліджувати вміст холодильника для планування їжі або аналізувати складні діаграми даних, пов’язаних з роботою.