Процесс языковой обработки на основе «токенов» модели искусственного интеллекта нового поколения обнаруживает множество ограничений, создавая серьезный барьер для развития этой области.

Модели генеративного искусственного интеллекта, от компактной Gemma до продвинутой GPT-4, основаны на архитектуре трансформатора. Вместо обработки необработанного текста, как люди, преобразователи кодируют данные в более мелкие единицы, называемые «токенами». Токенами могут быть слова, слоги или даже отдельные символы. Этот процесс, называемый токенизацией, позволяет ИИ более эффективно получать информацию, но в то же время создает множество ограничений.

Одной из основных проблем является отсутствие единообразия в обращении с токенами. Например, модель может разбирать «однажды» на «однажды», «на», «а», «время», при этом «однажды» (с пробелом в конце) интерпретируется как «однажды». , "на", " ". Это затрудняет понимание модели контекста и истинного значения предложения, что приводит к неточным результатам.

Кроме того, различие между прописными и строчными буквами также имеет существенное значение. Что касается модели, «Привет» и «Привет» можно понимать как два совершенно разных понятия. Именно эта двусмысленность в способе кодирования токенов приводит к тому, что многие модели ИИ не проходят простые тесты на капитализацию.

По словам Шеридана Фойхта, аспиранта Северо-Восточного университета, не существует такого понятия, как «идеальный токен». Язык сам по себе содержит множество сложных элементов, и определение оптимальной семантической единицы для кодирования по-прежнему остается сложной проблемой.

Проблема становится еще хуже, если рассматривать другие языки, кроме английского. Многие современные методы кодирования по умолчанию используют пробелы в качестве разделителей слов, но это не подходит для таких языков, как китайский, японский, корейский и т. д. Согласно исследованию Оксфордского университета, проведенному в 2023 году, неэффективное языковое кодирование может привести к тому, что модель ИИ будет выполняться дважды. дольше обрабатывать задачу по сравнению с английским.

Пользователи, использующие эти «неэффективные с использованием токенов» языки, также могут столкнуться с более низкой производительностью ИИ и более высокими расходами на использование, поскольку многие провайдеры взимают плату в зависимости от количества токенов.

Исследования, проведенные в том же 2023 году Йенни Джун, исследователем искусственного интеллекта из Google DeepMind, также показали, что некоторым языкам требуется в 10 раз больше токенов, чем английскому, чтобы передать то же значение. Это наглядно показывает языковое неравенство в сфере ИИ.

Кроме того, токенизация также считается причиной того, что нынешние модели ИИ испытывают трудности с математической обработкой. Не понимая чисел по-настоящему, токенизатор может считать «380» токеном, но представлять «381» как пару («38» и «1»), разрушая связь между цифрами и приводя к путанице для преобразователя.

Непоследовательное кодирование чисел затрудняет понимание модели взаимосвязей между цифрами в уравнениях и математических формулах.

Мы увидим, что многие странные поведения и проблемы LLM на самом деле связаны с токенизацией. Мы рассмотрим ряд этих проблем, обсудим, почему токенизация виновата и почему в идеале кто-то находит способ полностью исключить этот этап. pic.twitter.com/5haV7FvbBx

– Андрей Карпаты (@karpathy) 20 февраля 2024 г.

Несмотря на множество проблем, ученые активно исследуют возможные решения. Модели пространства состояний «байтового уровня», такие как MambaByte, которая способна напрямую обрабатывать необработанные данные в байтовой форме, демонстрируют выдающийся потенциал для обработки лингвистического «шума» и эффективного анализа текста. Однако MambaByte и подобные модели все еще находятся на ранних стадиях исследований.

По словам Шеридана Фейхта, «полное устранение токенизации — возможный путь, но в настоящее время это вычислительно невозможно для преобразователей».

Появление новых модельных архитектур может стать ключом к прорыву в проблеме токенизации. В ближайшем будущем исследователи продолжат поиск решений по оптимизации токенизации для разных языков, стремясь к будущему, в котором ИИ сможет понимать и обрабатывать язык естественно и эффективно.