Potrivit Foresight News, OpenAI intenționează să introducă funcții de conversație vocală și imagine în ChatGPT în următoarele două săptămâni pentru utilizatorii Plus și companii. Funcția de conversație vocală va fi disponibilă pe dispozitivele iOS și Android, în timp ce funcția de conversație cu imagini va fi accesibilă pe toate platformele.
Funcția de voce este susținută de un nou model text-to-speech care poate genera sunet asemănător unui om din text și câteva secunde de eșantion de voce. Utilizează sistemul de recunoaștere a vorbirii cu sursă deschisă Whisper pentru a transcrie limba vorbită în text, pentru a genera un răspuns și apoi a converti răspunsul înapoi în vorbire pentru a le juca pentru utilizator. Funcția de imagine este alimentată de GPT-3.5 și GPT-4 multimodal, aplicând abilități de raționament lingvistic diverselor imagini, cum ar fi fotografii, capturi de ecran și documente care conțin text și imagini. Utilizatorii pot afișa una sau mai multe imagini către ChatGPT, care va încerca să recunoască conținutul despre care utilizatorul dorește să se întrebe și să ofere un răspuns corespunzător, cum ar fi explorarea conținutului unui frigider pentru a planifica mesele sau analizarea unor diagrame complexe de date legate de muncă.