Según Foresight News, OpenAI planea introducir funciones de conversación de voz e imagen en ChatGPT dentro de las próximas dos semanas para usuarios Plus y empresariales. La función de conversación de voz estará disponible en dispositivos iOS y Android, mientras que la función de conversación de imágenes estará disponible en todas las plataformas.
La función de voz está respaldada por un nuevo modelo de texto a voz que puede generar audio similar al humano a partir de texto y unos segundos de voz de muestra. Utiliza el sistema de reconocimiento de voz de código abierto Whisper para transcribir el lenguaje hablado en texto, generar una respuesta y luego convertir la respuesta nuevamente en voz para que el usuario la reproduzca. La función de imagen funciona con GPT-3.5 y GPT-4 multimodal, y aplica habilidades de razonamiento lingüístico a varias imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes. Los usuarios pueden mostrar una o más imágenes a ChatGPT, que intentará reconocer el contenido sobre el que el usuario desea preguntar y proporcionar una respuesta correspondiente, como explorar el contenido de un refrigerador para planificar comidas o analizar gráficos de datos complejos relacionados con el trabajo.