Laut Foresight News plant OpenAI, innerhalb der nächsten zwei Wochen Sprach- und Bildkonversationsfunktionen in ChatGPT für Plus- und Enterprise-Benutzer einzuführen. Die Sprachkonversationsfunktion wird auf iOS- und Android-Geräten verfügbar sein, während die Bildkonversationsfunktion auf allen Plattformen zugänglich sein wird.
Die Sprachfunktion wird durch ein neues Text-to-Speech-Modell unterstützt, das aus Text und einigen Sekunden Beispielstimme menschenähnliches Audio erzeugen kann. Es verwendet das Open-Source-Spracherkennungssystem Whisper, um gesprochene Sprache in Text umzuwandeln, eine Antwort zu generieren und die Antwort dann wieder in Sprache umzuwandeln, um sie dem Benutzer vorzuspielen. Die Bildfunktion wird durch multimodales GPT-3.5 und GPT-4 unterstützt und wendet Sprachschlussfolgerungsfähigkeiten auf verschiedene Bilder an, wie Fotos, Screenshots und Dokumente, die Text und Bilder enthalten. Benutzer können ChatGPT ein oder mehrere Bilder zeigen, das versucht, den Inhalt zu erkennen, nach dem der Benutzer fragen möchte, und eine entsprechende Antwort liefert, wie z. B. das Durchsuchen des Inhalts eines Kühlschranks, um Mahlzeiten zu planen, oder das Analysieren komplexer arbeitsbezogener Datendiagramme.