Quá trình xử lý ngôn ngữ dựa trên “token” của mô hình AI thế hệ mới đang bộc lộ nhiều hạn chế, đặt ra rào cản lớn cho sự phát triển của lĩnh vực này.

Mô hình AI tạo sinh, bao gồm từ Gemma nhỏ gọn đến GPT-4 tiên tiến, đều dựa trên kiến ​​trúc transformer. Thay vì xử lý văn bản thô như con người, transformer vận hành bằng cách mã hóa dữ liệu thành các đơn vị nhỏ hơn gọi là “token.” Token có thể là từ, âm tiết hoặc thậm chí là từng ký tự riêng lẻ. Quá trình này, được gọi là tokenization, cho phép AI tiếp nhận thông tin hiệu quả hơn, nhưng đồng thời cũng tạo ra nhiều hạn chế.

Một trong những thách thức chính là sự thiếu nhất quán trong cách token được xử lý. Ví dụ, mô hình có thể phân tích “once upon a time” thành “once”, “upon”, “a”, “time”, trong khi “once upon a ” (có dấu cách ở cuối) lại được hiểu là “once”, “upon”, “a”, ” “. Điều này khiến mô hình gặp khó khăn trong việc hiểu ngữ cảnh và ý nghĩa thực sự của câu, dẫn đến kết quả không chính xác.

Hơn nữa, việc phân biệt chữ hoa, chữ thường cũng tạo ra sự khác biệt đáng kể. Đối với mô hình, “Hello” và “HELLO” có thể được hiểu là hai khái niệm hoàn toàn khác nhau. Chính sự mơ hồ trong cách thức mã hóa token này đã khiến nhiều mô hình AI thất bại trong các bài kiểm tra đơn giản về chữ hoa.

Theo Sheridan Feucht, nghiên cứu sinh tiến sĩ tại Đại học Northeastern, không có khái niệm “token hoàn hảo.” Bản thân ngôn ngữ vốn dĩ đã chứa đựng nhiều yếu tố phức tạp, và việc xác định đâu là đơn vị ngữ nghĩa tối ưu để mã hóa vẫn là một bài toán nan giải.

Vấn đề càng trở nên trầm trọng hơn khi xét đến các ngôn ngữ khác ngoài tiếng Anh. Nhiều phương pháp mã hóa hiện nay mặc định khoảng trắng là dấu hiệu phân cách từ, nhưng điều này không phù hợp với các ngôn ngữ như tiếng Trung, tiếng Nhật, tiếng Hàn,… Theo một nghiên cứu năm 2023 của Đại học Oxford, việc mã hóa ngôn ngữ không hiệu quả có thể khiến mô hình AI mất gấp đôi thời gian để xử lý một tác vụ so với tiếng Anh.

Người dùng sử dụng các ngôn ngữ “kém hiệu quả về token” này cũng có khả năng phải đối mặt với hiệu suất AI kém hơn và chi phí sử dụng cao hơn do nhiều nhà cung cấp tính phí dựa trên số lượng token.

Nghiên cứu cũng trong cùng năm 2023 của Yennie Jun, nhà nghiên cứu AI tại Google DeepMind, cũng chỉ ra rằng một số ngôn ngữ cần gấp 10 lần số lượng token so với tiếng Anh để truyền tải cùng một ý nghĩa. Điều này cho thấy rõ sự bất bình đẳng về ngôn ngữ trong lĩnh vực AI.

Ngoài ra, tokenization còn được cho là nguyên nhân khiến mô hình AI hiện tại gặp khó khăn trong việc xử lý toán học. Do không thực sự hiểu về số, tokenizer có thể coi “380” là một token, nhưng biểu thị “381” là một cặp (“38” và “1”), phá hủy mối quan hệ giữa các chữ số và dẫn đến sự nhầm lẫn cho transformer.

Việc mã hóa số không nhất quán khiến mô hình khó nắm bắt mối quan hệ giữa các chữ số trong phương trình và công thức toán học.

We will see that a lot of weird behaviors and problems of LLMs actually trace back to tokenization. We'll go through a number of these issues, discuss why tokenization is at fault, and why someone out there ideally finds a way to delete this stage entirely. pic.twitter.com/5haV7FvbBx

— Andrej Karpathy (@karpathy) February 20, 2024

Mặc dù gặp nhiều thách thức, nhưng các nhà khoa học đang tích cực nghiên cứu những giải pháp khả thi. Mô hình không gian trạng thái “byte-level” như MambaByte, có khả năng xử lý trực tiếp dữ liệu thô ở dạng byte, cho thấy tiềm năng vượt trội trong việc xử lý “nhiễu” ngôn ngữ và phân tích văn bản hiệu quả hơn. Tuy nhiên, MambaByte và các mô hình tương tự vẫn đang trong giai đoạn nghiên cứu ban đầu.

Theo Sheridan Feucht, “Việc loại bỏ hoàn toàn tokenization là hướng đi khả thi, nhưng hiện tại điều đó là bất khả thi về mặt tính toán đối với transformer.”

Sự xuất hiện của các kiến trúc mô hình mới có thể là chìa khóa đột phá cho bài toán tokenization. Trước mắt, các nhà nghiên cứu tiếp tục tìm kiếm giải pháp tối ưu hóa tokenization cho các ngôn ngữ khác nhau, hướng đến một tương lai nơi AI có thể thấu hiểu và xử lý ngôn ngữ một cách tự nhiên và hiệu quả.