OpenAI hôm thứ Hai đã tiết lộ mẫu hàng đầu mới nhất của mình có tên GPT-4o (“o” nghĩa là “omni”) và có vẻ như đây là lần gần nhất chúng ta có được một trợ lý thông minh là “Jarvis” trong bộ phim Iron Man.

Điểm đáng chú ý là ChatGPT-4o có thể xử lý các phương thức khác nhau, điều mà hầu hết các mô hình AI hiện tại không thể làm được. Điều này có nghĩa là GPT-4o có thể chấp nhận và tạo ra bất kỳ sự kết hợp nào giữa các yêu cầu văn bản, âm thanh và hình ảnh.

Bản demo dàn dựng được nhóm trình bày trên X (trước đây là Twitter) ấn tượng đến mức nhiều người đã thổi phồng nó lên. Một kỳ tích lớn là GPT-4o phản hồi với đầu vào âm thanh chỉ trong 232 mili giây, tương tự như thời gian phản hồi của con người trong cuộc trò chuyện.

“Cảm giác giống như AI trong phim; và tôi vẫn hơi ngạc nhiên khi biết điều đó là sự thật,” Giám đốc điều hành OpenAI Sam Altman viết trong một bài đăng trên blog hôm thứ Hai. “Đạt được thời gian phản hồi và khả năng biểu đạt ở cấp độ con người hóa ra lại là một sự thay đổi lớn.”

OpenAI đã bắt đầu triển khai các tính năng văn bản và hình ảnh của GPT-4o cho người dùng. Công ty cho biết trong những tuần tới, khả năng âm thanh và video sẽ được phát hành cho “một nhóm nhỏ đối tác đáng tin cậy trong API”.

Tuy nhiên, đây là một số điều bạn có thể làm với mô hình ChatGPT-4o.

Những điều bạn có thể làm với GPT-4o

Tạo hình ảnh với văn bản dễ đọc

Cho đến nay, một số trình tạo hình ảnh AI như Midjourney vẫn gặp khó khăn trong việc tạo ra hình ảnh có văn bản có thể đọc được. OpenAI cho biết GPT-4o hiện hiểu mô tả văn bản tốt hơn nhiều và có thể tạo văn bản dễ đọc trên hình ảnh.

Nguồn hình ảnh: Dịch thuật thời gian thực OpenAI

Trong trường hợp cần người phiên dịch, GPT-4o có thể hoạt động như một người phiên dịch. Trong một video trình diễn, nhóm của OpenAI đã chỉ ra rằng GPT-4o có thể lặp lại điều gì đó được nói bằng tiếng Anh bằng tiếng Tây Ban Nha, có lẽ là các ngôn ngữ khác và ngược lại từ tiếng Tây Ban Nha sang tiếng Anh.

Dịch thời gian thực với GPT-4o pic.twitter.com/J1BsrxwYdE

– OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024

Nhìn và kể

Đối với những người khiếm thị hoặc chỉ để giải trí, ChatGPT-4o có thể nhìn và cho biết những gì đang xảy ra xung quanh bạn thông qua camera điện thoại. Trong một trường hợp, người mẫu có thể cho biết ai đó đang tổ chức tiệc sinh nhật khi nhận thấy một chiếc bánh và nến trong phòng.

@BeMyEyes với GPT-4o pic.twitter.com/nWb6sEWZlo

– OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024

Giải quyết các vấn đề toán học

GPT-4o cũng có thể xem các bài toán trên một tờ giấy hoặc màn hình hiển thị và đưa ra câu trả lời cho chúng. Không chỉ vậy, nó còn có thể dạy kèm và hướng dẫn bạn cách giải quyết vấn đề.

Các bài toán với GPT-4o và @khanacademy pic.twitter.com/RfKaYx5pTJ

– OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024

AI trong cuộc họp trực quan

GPT-4o có thể tham gia các cuộc họp trực quan và tổ chức bảo tồn với những người tham gia. Nó cũng có thể giúp người dùng chuẩn bị cho các cuộc họp phỏng vấn xin việc.

Gặp gỡ AI với GPT-4o pic.twitter.com/rHkQ316MYj

– OpenAI (@OpenAI) Ngày 13 tháng 5 năm 2024