Theo Foresight News, OpenAI có kế hoạch giới thiệu các tính năng trò chuyện bằng giọng nói và hình ảnh trong ChatGPT trong vòng hai tuần tới cho người dùng Plus và người dùng doanh nghiệp. Tính năng trò chuyện bằng giọng nói sẽ có sẵn trên thiết bị iOS và Android, trong khi tính năng trò chuyện bằng hình ảnh sẽ có sẵn trên tất cả các nền tảng.

Tính năng giọng nói được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói mới có thể tạo ra âm thanh giống con người từ văn bản và một vài giây giọng nói mẫu. Nó sử dụng hệ thống nhận dạng giọng nói nguồn mở Whisper để chuyển ngôn ngữ nói thành văn bản, tạo câu trả lời và sau đó chuyển câu trả lời trở lại thành giọng nói để người dùng phát. Tính năng hình ảnh được hỗ trợ bởi GPT-3.5 và GPT-4 đa phương thức, áp dụng các kỹ năng suy luận ngôn ngữ cho nhiều hình ảnh khác nhau, chẳng hạn như ảnh, ảnh chụp màn hình và tài liệu chứa văn bản và hình ảnh. Người dùng có thể hiển thị một hoặc nhiều hình ảnh cho ChatGPT. ChatGPT sẽ cố gắng nhận dạng nội dung mà người dùng muốn hỏi và đưa ra phản hồi tương ứng, chẳng hạn như khám phá nội dung trong tủ lạnh để lập kế hoạch bữa ăn hoặc phân tích biểu đồ dữ liệu phức tạp liên quan đến công việc.