Khả năng mô phỏng thế giới (World Model) được một số chuyên gia coi là bước tiến lớn tiếp theo để AI có thể "nhận thức" và tái hiện thế giới vật lý.
Một số công ty hoặc phòng thí nghiệm đang thúc đẩy khả năng mô hình hóa thế giới cho AI. Trong đó, phòng thí nghiệm World Labs của giáo sư Fei-Fei Li, một trong những người tiên phong về AI, huy động được 230 triệu USD để xây dựng "mô hình thế giới lớn". Google DeepMind cũng thuê Tim Brooks, người đứng đầu nhóm Sora, và một chuyên gia khác là William Peebles, để phát triển "trình mô phỏng thế giới".
"Hình ảnh thế giới xung quanh được chúng ta giữ trong đầu chỉ là các mô hình. Không ai trong đầu có thể tưởng tượng toàn bộ thế giới, chính phủ hay đất nước. Người ta chỉ chọn các khái niệm và mối quan hệ giữa chúng, và sử dụng để đại diện cho hệ thống thực sự", theo định nghĩa về Mô hình tinh thần (Mental Model) nêu trong cuốn Hành vi phản trực giác của các hệ thống xã hội do Jay Wright Forrester, một kỹ sư máy tính, nhà lý thuyết quản lý và nhà khoa học hệ thống người Mỹ, viết năm 1971.
Minh họa về "thế giới của AI". Ảnh: Novita
World Model được xem là sự kế thừa từ Mental Model, đều lấy cảm hứng từ bộ não người. Não bộ lấy biểu diễn trừu tượng từ các giác quan, qua đó hình thành sự hiểu biết cụ thể về thế giới xung quanh. Những dự đoán mà bộ não đưa ra dựa trên các mô hình ảnh hưởng đến cách một người nhận thức thế giới.
Hai nhà nghiên cứu David Ha và Jürgen Schmidhuber lấy ví dụ về cách cầu thủ bóng chày thi đấu. Những người này chỉ có một phần nghìn giây để quyết định cách vung gậy và thông số này ngắn hơn thời gian cần thiết để đưa tín hiệu từ thị giác đến não. Để làm được, họ cần dự đoán cách ném bóng và hướng bóng trước khi bóng tới.
"Đây là khía cạnh để AI đạt đến cấp độ con người nếu áp dụng World Model", Ha và Schmidhuber viết trong báo cáo chung đăng trên Github.
Theo giới chuyên gia, các AI tạo video từ văn bản, như Sora, đều rơi vào cái gọi là "thung lũng kỳ lạ". Có nghĩa, video do AI tạo ra còn nhiều sai sót, nhất là với chuyển động nhanh, một phần do thuật toán không thể dự đoán được "mô hình" tiếp theo, như cách não người thực hiện.
Theo TechCrunch, các công cụ AI tạo video hiện có thể dự đoán chính xác một quả bóng rổ nảy lên, nhưng thực tế nó không biết lý do tại sao. Tương tự, các mô hình ngôn ngữ cũng không thực sự hiểu khái niệm đằng sau từ và cụm từ.
Tuy nhiên, World Model giúp AI thông minh thực sự bằng cách "hiểu" lý do quả bóng nảy lên. Để có được hiểu biết sâu sắc đó, World Model cần được đào tạo trên nhiều loại dữ liệu như ảnh, âm thanh, video và văn bản, với mục đích tạo ra các suy luận nội tại về cách thế giới vận hành và khả năng lý giải về kết quả của các hành động.
"Người xem mong đợi những gì họ nhìn thấy sẽ hoạt động giống như trên thực tế", Alex Mashrabov, cựu giám đốc AI của Snap và CEO công ty tạo mô hình thế giới Higgsfield, nói với TechCrunch. "Công cụ chạy World Model đủ mạnh mẽ sẽ hiểu được vật thể chuyển động thế nào thay vì phải đợi người sáng tạo 'vẽ đường' cho nó di chuyển".
Nhưng tạo ra video tốt hơn chỉ là một phần trong ứng dụng của World Model. Các nhà nghiên cứu AI hàng đầu, như Yann LeCun, Giám đốc AI của Meta, dự đoán đến một ngày nào đó, chúng có thể được sử dụng để dự báo, lập kế hoạch tinh vi trong cả lĩnh vực kỹ thuật số lẫn vật lý.
Đầu năm nay, LeCun mô tả cách World Model có thể giúp một hệ thống AI đạt mục tiêu mong muốn thông qua suy luận. Một mô hình đưa ra câu chuyện ban đầu, ví dụ video về một căn phòng bẩn, đưa cho nó mục tiêu là một căn phòng sạch, và một chuỗi hành động để đạt được mục tiêu đó, như triển khai máy hút bụi để quét, rửa bát đĩa, đổ rác. Trong quá trình này, AI không chỉ nhận diện qua camera và cảm biến, mà còn "biết" ở cấp độ sâu hơn cách chuyển từ bẩn sang sạch.
"Chúng ta cần cỗ máy hiểu thế giới, có thể ghi nhớ mọi thứ, có trực giác, có ý thức chung - thứ có thể suy luận và lập kế hoạch ở cùng mức độ con người", LeCun nói. "Các hệ thống AI hiện tại không có khả năng làm bất kỳ điều nào trong số đó. Có thể một thập kỷ nữa, chúng mới xuất hiện".
OpenAI cho biết Sora có thể được coi là một World Model sơ khai khi mô phỏng các hành động, chẳng hạn một họa sĩ để lại nét cọ trên vải. Tuy vậy, công ty cũng thừa nhận cần một thời gian dài nữa mới có thể hoàn thiện tính năng.
Dù tiềm năng lớn, việc xây dựng World Model tốn nhiều chi phí, do đòi hỏi sức mạnh tính toán khổng lồ so với hiện tại. Ước tính, một công cụ cỡ nhỏ cũng có thể ngốn hàng nghìn GPU mạnh nhất để huấn luyện.
Bên cạnh đó, lượng dữ liệu đầu vào cho World Model cũng lớn gấp nhiều lần so với các mô hình ngôn ngữ lớn (large language model) đang có. "Dữ liệu đào tạo cho mô hình phải đủ rộng để bao quát, tập hợp kịch bản đa dạng nhưng phải rất cụ thể để AI hiểu sâu sắc các sắc thái của kịch bản đó", Mashrabov của Higgsfield bình luận. "Việc thiếu dữ liệu đang khiến các bước tiến chậm lại".
Cristóbal Valenzuela, CEO của Runway AI, cũng cho rằng dữ liệu là rào cản lớn nhất trên con đường xây dựng World Model. "Các mô hình cần nhiều dữ liệu và kỹ thuật để tạo ra bản đồ nhất quán về môi trường, khả năng điều hướng và tương tác trong môi trường đó", Valenzuela viết trên blog.
Tuy nhiên, Mashrabov tin nếu vượt qua được tất cả rào cản này, World Model sẽ "mạnh mẽ hơn" trong việc kết nối AI với thế giới thực, nhất là khi kết hợp với robot.
"Robot ngày nay hạn chế về khả năng thực hiện công việc vì chúng không nhận thức được xung quanh. World Model có thể cung cấp cho chúng khả năng đó", ông nói. "Với một mô hình tiên tiến, AI có thể phát triển sự hiểu biết cá nhân về bất kỳ kịch bản nào mà nó được đặt vào và bắt đầu suy luận các giải pháp khả thi".