Odaily Planet Daily News OpenAI đã thực hiện bốn bản cập nhật cho mô hình của mình vào tháng 10 để giúp mô hình AI của họ tiến hành các cuộc trò chuyện tốt hơn và cải thiện khả năng nhận dạng hình ảnh. Bản cập nhật lớn đầu tiên là Live API, cho phép các nhà phát triển tạo các ứng dụng giọng nói do AI tạo ra bằng một lời nhắc duy nhất, cho phép các cuộc trò chuyện tự nhiên tương tự như chế độ giọng nói nâng cao của ChatGPT. Trước đây các nhà phát triển phải “ghép” nhiều mô hình lại với nhau để tạo ra những trải nghiệm này. Đầu vào âm thanh thường cần phải được tải lên và xử lý đầy đủ trước khi nhận được phản hồi, điều này có nghĩa là độ trễ cao hơn đối với các ứng dụng thời gian thực như cuộc trò chuyện bằng giọng nói. Với khả năng phát trực tuyến của API thời gian thực, giờ đây các nhà phát triển có thể đạt được các tương tác tức thì, tự nhiên, giống như trợ lý giọng nói. API chạy trên GPT-4, được phát hành vào tháng 5 năm 2024 và có thể thực hiện suy luận qua âm thanh, hình ảnh và văn bản trong thời gian thực. Một bản cập nhật khác bao gồm các công cụ tinh chỉnh dành cho nhà phát triển, cho phép họ cải thiện phản hồi AI được tạo ra từ quá trình nhập hình ảnh và văn bản. Công cụ quay vòng dựa trên hình ảnh cho phép trí tuệ nhân tạo hiểu hình ảnh tốt hơn, từ đó nâng cao khả năng tìm kiếm trực quan và phát hiện đối tượng. Quá trình này bao gồm phản hồi từ con người, những người cung cấp các ví dụ về phản hồi tốt và xấu trong quá trình đào tạo. Ngoài các bản cập nhật về giọng nói và hình ảnh, OpenAI còn giới thiệu “chưng cất mô hình” và “bộ nhớ đệm gợi ý” cho phép các mô hình nhỏ hơn học hỏi từ các mô hình lớn hơn và giảm chi phí cũng như thời gian phát triển bằng cách sử dụng lại văn bản đã xử lý. OpenAI kỳ vọng doanh thu sẽ tăng lên 11,6 tỷ USD vào năm tới, tăng từ mức 3,7 tỷ USD dự kiến ​​vào năm 2024, Reuters đưa tin. (Cointelegraph)