Menurut Foresight News, OpenAI berencana untuk memperkenalkan fitur percakapan suara dan gambar di ChatGPT dalam dua minggu ke depan untuk pengguna Plus dan perusahaan. Fitur percakapan suara akan tersedia di perangkat iOS dan Android, sedangkan fitur percakapan gambar dapat diakses di semua platform.
Fitur suara didukung model text-to-speech baru yang dapat menghasilkan audio mirip manusia dari teks dan sampel suara beberapa detik. Ia menggunakan sistem pengenalan suara sumber terbuka Whisper untuk menyalin bahasa lisan menjadi teks, menghasilkan jawaban, dan kemudian mengubah jawaban kembali menjadi ucapan untuk diputar bagi pengguna. Fitur gambar didukung oleh multimodal GPT-3.5 dan GPT-4, menerapkan keterampilan penalaran bahasa pada berbagai gambar, seperti foto, tangkapan layar, dan dokumen berisi teks dan gambar. Pengguna dapat menampilkan satu atau lebih gambar ke ChatGPT, yang akan mencoba mengenali konten yang ingin ditanyakan pengguna dan memberikan respons yang sesuai, seperti menjelajahi isi lemari es untuk merencanakan makanan atau menganalisis bagan data terkait pekerjaan yang kompleks.