Nghiên cứu mới từ Technion, Google Research và Apple cho thấy mô hình ngôn ngữ lớn (LLM) hiểu biết sâu sắc về tính đúng đắn hơn dự kiến. 

Một vấn đề lớn với các mô hình ngôn ngữ lớn (LLMs) là xu hướng tạo ra các đầu ra sai lệch hoặc vô nghĩa, thường được gọi là hiện tượng “ảo giác”. Thuật ngữ “ảo giác” chưa có một định nghĩa chung và bao hàm một loạt các lỗi của LLM.

Trong nghiên cứu lần này, các nhà nghiên cứu áp dụng cách diễn giải rộng rãi: tức là coi ảo giác là tất cả các lỗi do LLM tạo ra, bao gồm sai sót về thực tế, thiên kiến và các lỗi khác trong thế giới thực.

Hầu hết nghiên cứu trước đây đã tập trung vào phân tích hành vi bên ngoài của LLMs và cách mà người dùng cảm nhận những lỗi này, trong khi nghiên cứu mới này điều tra cách thức hoạt động bên trong của LLMs, cụ thể là “token câu trả lời chính xác” – các token phản hồi mà nếu bị sửa đổi sẽ thay đổi tính chính xác của câu trả lời – để đánh giá tính chính xác của các đầu ra.

Các nhà nghiên cứu đã tiến hành thí nghiệm trên bốn biến thể của các mô hình Mistral 7B và Llama 2 qua 10 bộ dữ liệu, cho thấy thông tin liên quan đến tính chính xác được tập trung trong các token câu trả lời chính xác. Họ phát hiện rằng việc đào tạo các mô hình phân loại để dự đoán các đặc điểm liên quan đến tính chính xác của các đầu ra giúp cải thiện khả năng phát hiện lỗi.

“Những mẫu hình này nhất quán trên gần như tất cả các bộ dữ liệu và mô hình, cho thấy một cơ chế chung mà qua đó LLMs mã hóa và xử lý tính chính xác trong quá trình tạo văn bản,” các nhà nghiên cứu cho biết.

Để dự đoán “hiện tượng ảo giác,” các nhà nghiên cứu đã huấn luyện các mô hình được gọi là “mô hình phân loại thăm dò” (probing classifiers), để dự đoán các đặc điểm liên quan đến tính đúng đắn của các kết quả được tạo ra dựa trên các hoạt động bên trong của LLM. Việc huấn luyện các mô hình này trên các “token câu trả lời chính xác” đã giúp cải thiện đáng kể việc phát hiện lỗi.

Họ cũng điều tra xem liệu một classifier khám phá được đào tạo trên một bộ dữ liệu có thể phát hiện lỗi trong các bộ dữ liệu khác hay không và nhận thấy rằng các classifiers này không tổng quát qua các nhiệm vụ khác nhau, nhưng có thể tổng quát trong các nhiệm vụ yêu cầu kỹ năng tương tự.

Những thí nghiệm bổ sung cho thấy các classifiers khám phá có thể dự đoán không chỉ sự hiện diện của lỗi mà còn cả loại lỗi mà mô hình có khả năng mắc phải. Phát hiện này chỉ ra rằng các hoạt động nội bộ của mô hình có thể xác định đúng câu trả lời, nhưng mô hình lại thường xuyên tạo ra câu trả lời sai. Điều này cho thấy các phương pháp đánh giá hiện tại có thể không phản ánh chính xác khả năng thực sự của các mô hình này.

Cuối cùng, phát hiện cho thấy rằng các phương pháp đánh giá hiện tại có thể không phản ánh chính xác khả năng thực sự của LLMs. Việc hiểu và tận dụng tốt hơn kiến thức nội bộ của các mô hình này có thể giúp giảm thiểu đáng kể lỗi.

Những phát hiện của nghiên cứu có thể giúp thiết kế các hệ thống giảm thiểu ảo giác tốt hơn. Tuy nhiên, các kỹ thuật mà nó sử dụng yêu cầu quyền truy cập vào các đại diện nội bộ của LLM, điều này chủ yếu khả thi với các mô hình mã nguồn mở.

Các phòng thí nghiệm AI hàng đầu như OpenAI, Anthropic và Google DeepMind đã làm việc trên nhiều kỹ thuật khác nhau để diễn giải cách thức hoạt động bên trong của các mô hình ngôn ngữ. Những nghiên cứu này có thể giúp xây dựng các hệ thống đáng tin cậy hơn.