OpenAI, người tạo ra ChatGPT, đã công bố mẫu AI mới nhất của mình, GPT-4o, một chatbot AI giống con người hơn, trò chuyện nhiều hơn, có thể diễn giải âm thanh và video của người dùng và phản hồi trong thời gian thực.

Một loạt bản demo do công ty phát hành cho thấy GPT-4 Omni giúp người dùng tiềm năng những việc như chuẩn bị phỏng vấn — bằng cách đảm bảo rằng họ trông chỉnh tề trong cuộc phỏng vấn — và gọi cho đại lý dịch vụ khách hàng để nhận iPhone thay thế, dịch cuộc trò chuyện song ngữ sang thực tế. thời gian.

Các bản demo cho thấy nó có thể chia sẻ những câu chuyện cười của người cha, làm trọng tài cho trận đấu oẳn tù tì giữa hai người dùng và trả lời một cách mỉa mai khi được hỏi. Một bản demo thậm chí còn cho thấy ChatGPT được giới thiệu với chú chó con của người dùng lần đầu tiên.

"Xin chào, Bowser! Chẳng phải bạn là sinh vật nhỏ bé đáng yêu nhất sao?" chatbot kêu lên.

Xin chào GPT-4o, mẫu hàng đầu mới của chúng tôi có thể suy luận về âm thanh, hình ảnh và văn bản trong thời gian thực: https://t.co/MYHZB79UqNĐầu vào văn bản và hình ảnh sẽ ra mắt hôm nay trong API và ChatGPT với giọng nói và video trong những tuần sắp tới. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024

“Cảm giác giống như AI trong phim; và tôi vẫn hơi ngạc nhiên rằng đó là sự thật,” Giám đốc điều hành của công ty, Sam Altman, cho biết trong một bài đăng trên blog ngày 13 tháng 5.

“Đạt được thời gian phản hồi và khả năng biểu đạt ở cấp độ con người hóa ra lại là một sự thay đổi lớn.”

OpenAI cho biết trong một bài đăng X gần đây rằng phiên bản đầu vào chỉ có văn bản và hình ảnh đã được ra mắt vào ngày 13 tháng 5, với phiên bản đầy đủ sẽ ra mắt trong vài tuần tới.

GPT-4o sẽ có sẵn cho cả người dùng ChatGPT trả phí và miễn phí và sẽ có thể truy cập được từ API của ChatGPT.

OpenAI cho biết chữ “o” trong GPT-4o là viết tắt của “omni” - nhằm đánh dấu một bước tiến tới các tương tác giữa người và máy tính tự nhiên hơn.

Giới thiệu GPT-4o, mô hình mới của chúng tôi có thể suy luận về văn bản, âm thanh và video trong thời gian thực. Nó cực kỳ linh hoạt, thú vị khi sử dụng và là một bước tiến tới hình thức tương tác giữa con người với máy tính tự nhiên hơn nhiều (và thậm chí cả con người). -tương tác máy tính-máy tính): pic.twitter.com/VLG7TJ1JQx

- Greg Brockman (@gdb) Ngày 13 tháng 5 năm 2024

Khả năng xử lý cùng lúc mọi đầu vào văn bản, âm thanh và hình ảnh của GPT-4o là một tiến bộ đáng kể so với các công cụ AI trước đây của OpenAI, chẳng hạn như ChatGPT-4, thường “mất nhiều thông tin” khi buộc phải thực hiện đa tác vụ .

Liên quan: Apple hoàn tất thỏa thuận với OpenAI để tích hợp ChatGPT iPhone: Báo cáo

OpenAI cho biết “GPT-4o đặc biệt tốt hơn về khả năng hiểu thị giác và âm thanh so với các mẫu hiện có”, thậm chí còn bao gồm cả việc nắm bắt cảm xúc và kiểu thở của người dùng.

Nó cũng “nhanh hơn nhiều” và “rẻ hơn 50%” so với GPT-4 Turbo trong API của OpenAI.

Công cụ AI mới có thể phản hồi với âm thanh đầu vào chỉ trong 2,3 giây, với thời gian trung bình là 3,2 giây, OpenAI tuyên bố, tương tự như thời gian phản hồi của con người trong một cuộc trò chuyện thông thường.

Tạp chí: ​​Làm thế nào để ngăn chặn ngày tận thế của trí tuệ nhân tạo: David Brin, tác giả Uplift