Các nhà nghiên cứu tại Meta cho biết việc đào tạo các mô hình ngôn ngữ để dự đoán nhiều mã thông báo cùng một lúc sẽ mang lại hiệu quả lấy mẫu tốt hơn.

Các mô hình ngôn ngữ lớn như Llama và ChatGPT thường được đào tạo để dự đoán mã thông báo tiếp theo, nhưng với phương pháp mới này, có thể đạt được hiệu suất tốt hơn.

Kỹ thuật dự đoán mã thông báo đơn là gì?

Kỹ thuật dự đoán nhiều mã thông báo mang lại lợi thế đáng kể trong một số tình huống với tốc độ gấp ba lần so với các tác vụ tổng hợp, nhưng nó vẫn không phải là giải pháp chung cho mọi loại mô hình. Kỹ thuật này còn nhiều chỗ cần cải tiến và đối với một số ứng dụng LLM, nó có thể trở thành một công cụ mạnh mẽ.

Để hiểu rõ hơn, có thể nói rằng quy trình đào tạo LLM truyền thống sử dụng cách tiếp cận được gọi là “dự đoán mã thông báo tiếp theo” và theo cách này, một mô hình chỉ dự đoán mã thông báo tương lai tiếp theo theo một chuỗi nhất định.

Trong một quy trình tự động, mã thông báo mà nó dự đoán sẽ được thêm vào đầu vào và quy trình này được lặp đi lặp lại trên toàn bộ dữ liệu đầu vào văn bản được cung cấp để mô hình tìm hiểu các mẫu chung và phát triển khả năng tạo ra đầu ra bao gồm logic và nhất quán. chữ.

Có một số hạn chế đối với kỹ thuật này, vì chỉ xử lý mã thông báo tiếp theo, mô hình trở nên quá tập trung vào các mẫu cục bộ trong văn bản và bỏ qua các dự đoán chỉ có thể được thực hiện bằng lý luận.

Một vấn đề khác với kỹ thuật này là nó đòi hỏi một lượng lớn tập dữ liệu được đưa vào mô hình để đạt được luồng đầu ra ngôn ngữ bình thường mà con người có thể thực hiện với rất ít văn bản.

Dự đoán nhiều mã thông báo cho phép tốc độ gấp 3 lần

Nguồn: Meta.

Trong phương pháp tiếp cận nhiều mã thông báo mới do Meta đề xuất, LLM được hướng dẫn dự đoán nhiều mã thông báo từ các vị trí khác nhau cùng lúc trong quá trình đào tạo. Các nhà nghiên cứu đã sử dụng kiến ​​trúc dự đoán đơn giản để dự đoán nhiều mã thông báo mà không yêu cầu thêm tài nguyên như xử lý thời gian và bộ nhớ.

Các nhà nghiên cứu đã sử dụng cùng một kiến ​​trúc Transformer đã được hầu hết các LLM sử dụng, nhưng họ đã thực hiện một số thay đổi để phù hợp với dự đoán nhiều mã thông báo bằng cách tăng đầu ra của nó từ đơn lên nhiều và phân bổ một cho mỗi mã thông báo.

Bằng cách này, để đưa ra kết luận và đưa ra dự đoán, mô hình sử dụng cùng một chiến lược dự đoán cơ bản tiếp theo nhưng bằng cách sử dụng nhiều đầu, mô hình có thể tăng tốc quá trình. Nghiên cứu nghiên cứu cho biết,

“Mặc dù miễn phí và đơn giản, dự đoán nhiều mã thông báo là một sửa đổi hiệu quả để đào tạo các mô hình máy biến áp mạnh hơn và nhanh hơn.”

Nguồn: Meta.

Trong quá trình nghiên cứu, các nhà nghiên cứu nhận thấy rằng kỹ thuật này tạo ra kết quả dưới mức trung bình khi họ sử dụng nó trên các mô hình nhỏ hơn, nhưng kết quả trở nên tốt hơn mức trung bình khi họ áp dụng quy trình tương tự cho các mô hình lớn hơn và kết quả tiếp tục cải thiện theo kích thước của mô hình. Như nghiên cứu viết,

“Phương pháp này ngày càng hữu ích cho các kích thước mô hình lớn hơn và vẫn giữ được sự hấp dẫn khi đào tạo cho nhiều kỷ nguyên. Lợi ích đặc biệt rõ rệt trên các điểm chuẩn chung như mã hóa, trong đó các mô hình của chúng tôi luôn hoạt động tốt hơn các đường cơ sở mạnh mẽ vài điểm phần trăm.”

Nguồn: Meta.

Các nhà nghiên cứu cũng cho biết rằng kỹ thuật dự đoán nhiều mã thông báo cũng giúp mô hình tạo ra kết quả hợp lý nhanh hơn gấp ba lần, điều này rất hữu ích với lợi ích là không có hoặc có rất ít chi phí bổ sung.