Một nghiên cứu mới cho thấy các mô hình ngôn ngữ lớn (LLM) được đào tạo dựa trên các lần lặp lại trước đây của tài liệu do AI tạo ra tạo ra các kết quả thiếu nội dung và sắc thái. Những phát hiện này đặt ra một thách thức mới cho các nhà phát triển AI, những người dựa vào bộ dữ liệu hạn chế do con người tạo ra cho nội dung.

Cũng đọc: AI deepfake đang gây khó khăn cho chính quyền Hoa Kỳ trong việc bảo vệ trẻ em – báo cáo

Các nhà nghiên cứu trí tuệ nhân tạo từ Đại học Cambridge và Đại học Oxford ở Vương quốc Anh đã cố gắng viết lời nhắc dựa trên tập dữ liệu chỉ bao gồm nội dung do AI tạo ra. Kết quả không lý tưởng vì nó tạo ra những phản ứng khó hiểu.

AI vẫn cần con người để hiểu được

Một trong những tác giả của bài báo, Zhakar Shumaylov từ Đại học Cambridge cho biết cần phải kiểm soát chất lượng dữ liệu cung cấp LLM, công nghệ đằng sau các chatbot AI tổng hợp như ChatGPT và Gemini của Google. Shumaylov nói:

“Thông điệp là chúng ta phải hết sức cẩn thận về những gì có trong dữ liệu đào tạo của mình. [Nếu không,] mọi thứ có thể luôn luôn đi sai hướng”.

Hiện tượng này được gọi là “sự sụp đổ mô hình”, Shumaylov mô tả chi tiết. Nó đã được chứng minh là có ảnh hưởng đến tất cả các loại mô hình trí tuệ nhân tạo, bao gồm cả những mô hình chuyên tạo hình ảnh bằng cách sử dụng lời nhắc văn bản.

Theo nghiên cứu, các lời nhắc văn bản lặp lại bằng cách sử dụng dữ liệu do AI tạo ra trên một mô hình đã tạo ra những lời nhắc vô nghĩa. Ví dụ, các nhà nghiên cứu phát hiện ra rằng một hệ thống được thử nghiệm với văn bản về các tòa tháp Nhà thờ thời Trung cổ ở Vương quốc Anh đã tạo ra một danh sách lặp đi lặp lại về những chú thỏ rừng chỉ sau chín thế hệ.

Bình luận về kết quả đầu ra, nhà khoa học máy tính Hany Farid của Đại học California đã ví sự sụp đổ dữ liệu với những thách thức đặc hữu đối với việc nhân giống động vật.

Farid cho biết: “Nếu một loài giao phối cận huyết với con cái của chính chúng và không đa dạng hóa nguồn gen của chúng, điều đó có thể dẫn đến sự sụp đổ của loài đó”.

Khi các nhà nghiên cứu đưa dữ liệu do con người tạo ra vào dữ liệu AI, sự cố xảy ra chậm hơn so với khi nó chạy trên nội dung hoàn toàn do AI tạo ra.

Các mô hình AI tạo ra tiếng vô nghĩa khi được huấn luyện trên dữ liệu do AI tạo ra. Các nhà nghiên cứu: AI có thể làm trầm trọng thêm những thành kiến ​​đối với các nhóm thiểu số

Mô hình ngôn ngữ hoạt động bằng cách xây dựng mối liên kết giữa các mã thông báo - các từ hoặc các phần của từ - trong những đoạn văn bản khổng lồ, thường được lấy từ Internet. Họ tạo ra văn bản bằng cách đưa ra từ tiếp theo có khả năng xảy ra cao nhất về mặt thống kê, dựa trên các mẫu đã học này.

Cũng đọc: Chú gấu bông hỗ trợ ChatGPT Poe đọc truyện trước khi đi ngủ cho trẻ em

Nghiên cứu được công bố trên tạp chí Nature ngày 24/7 cho thấy thông tin được đề cập một vài lần trong bộ dữ liệu có khả năng sẽ không được lặp lại. Các nhà nghiên cứu lo ngại điều này có thể tác động tiêu cực đến các nhóm thiểu số vốn đã bị gạt ra ngoài lề xã hội.

Để ngăn chặn sự sụp đổ của mô hình trong các trường hợp sử dụng thực tế, nghiên cứu đã đề xuất tạo hình chìm mờ cho nội dung do AI tạo và nội dung do con người tạo ra. Nhưng điều này cũng có thể có vấn đề do thiếu sự phối hợp giữa các công ty AI đối thủ.

Những phát hiện của nghiên cứu được đưa ra vào thời điểm ngày càng có nhiều tranh luận về việc liệu AI có dẫn đến việc loại trừ hoàn toàn con người trong việc tạo ra nội dung, bao gồm cả việc viết tiểu thuyết và báo chí hay không.

Với tiêu đề “Các mô hình AI sụp đổ khi được đào tạo trên dữ liệu được tạo đệ quy”, kết quả của nghiên cứu đã khiến cuộc tranh luận đó kết thúc – con người vẫn chưa bị loại khỏi phương trình.