Secondo Foresight News, OpenAI prevede di introdurre funzionalità di conversazione vocale e di immagini in ChatGPT entro le prossime due settimane per gli utenti Plus e aziendali. La funzionalità di conversazione vocale sarà disponibile su dispositivi iOS e Android, mentre la funzionalità di conversazione tramite immagini sarà accessibile su tutte le piattaforme.
La funzionalità vocale è supportata da un nuovo modello di sintesi vocale in grado di generare audio simile a quello umano dal testo e da alcuni secondi di voce campione. Utilizza il sistema di riconoscimento vocale open source Whisper per trascrivere il linguaggio parlato in testo, generare una risposta e quindi riconvertire la risposta in parlato per riprodurla per l'utente. La funzionalità delle immagini è basata su GPT-3.5 e GPT-4 multimodali, applicando capacità di ragionamento linguistico a varie immagini, come foto, screenshot e documenti contenenti testo e immagini. Gli utenti possono mostrare una o più immagini a ChatGPT, che tenterà di riconoscere il contenuto su cui l'utente desidera chiedere informazioni e fornire una risposta corrispondente, come esplorare il contenuto di un frigorifero per pianificare i pasti o analizzare complessi grafici di dati relativi al lavoro.