Odaily Planet Daily News OpenAI đã phát hành mẫu GPT-4o hàng đầu mới nhất của mình, có thể suy ra âm thanh, hình ảnh và văn bản trong thời gian thực. Khái niệm chính là một trợ lý tương tác giọng nói cá nhân có độ trễ cực thấp, siêu nhiên, nhân hóa. Theo thông tin liên quan đến trang web chính thức của OpenAI và tài khoản chính thức của Tạo ra bất kỳ sự kết hợp nào giữa đầu ra văn bản, âm thanh và hình ảnh. Nó có thể phản hồi âm thanh đầu vào trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản ứng của con người trong cuộc trò chuyện. Nó hoạt động ngang bằng với GPT-4 Turbo bằng tiếng Anh và mã, với những cải tiến đáng kể đối với văn bản không phải tiếng Anh, đồng thời có API nhanh hơn và rẻ hơn 50%. GPT-4o hoạt động đặc biệt tốt trong khả năng hiểu hình ảnh và âm thanh so với các mẫu hiện có. Tính năng nhập văn bản và hình ảnh hiện đang được triển khai cho API và ChatGPT, tính năng nhập bằng giọng nói và video sẽ ra mắt trong những tuần tới.