Według Foresight News OpenAI planuje w ciągu najbliższych dwóch tygodni wprowadzić funkcje konwersacji głosowych i obrazowych w ChatGPT dla użytkowników Plusa i przedsiębiorstw. Funkcja konwersacji głosowej będzie dostępna na urządzeniach z systemem iOS i Android, natomiast funkcja konwersacji obrazowej będzie dostępna na wszystkich platformach.
Funkcja głosowa jest obsługiwana przez nowy model zamiany tekstu na mowę, który może generować dźwięk przypominający ludzki z tekstu i kilku sekund przykładowego głosu. Wykorzystuje system rozpoznawania mowy typu open source Whisper do transkrypcji języka mówionego na tekst, generowania odpowiedzi, a następnie konwertowania odpowiedzi z powrotem na mowę w celu odtworzenia dla użytkownika. Funkcja obrazu jest obsługiwana przez multimodalne GPT-3.5 i GPT-4, wykorzystując umiejętności rozumowania językowego do różnych obrazów, takich jak zdjęcia, zrzuty ekranu i dokumenty zawierające tekst i obrazy. Użytkownicy mogą wyświetlać jeden lub więcej obrazów usłudze ChatGPT, która spróbuje rozpoznać treść, o którą użytkownik chce zapytać, i udzielić odpowiedniej odpowiedzi, na przykład przeglądając zawartość lodówki w celu planowania posiłków lub analizując złożone wykresy danych związanych z pracą.