新一代人工智能模型基于“令牌”的语言处理过程正暴露出许多局限性,成为该领域发展的重大障碍。

生成式 AI 模型,从紧凑型 Gemma 到先进的 GPT-4,均基于 Transformer 架构。变压器不是像人类一样处理原始文本,而是通过将数据编码成称为“令牌”的更小的单元来进行操作。标记可以是单词、音节,甚至单个字符。这个过程称为标记化,可以让人工智能更有效地接收信息,但同时也带来了许多限制。

主要挑战之一是代币的处理方式缺乏一致性。例如,模型可以将“once Upon a time”解析为“once”、“upon”、“a”、“time”,而“once Upon a”(末尾有空格)被解释为“once” 、“在”、“一”、“”。这使得模型很难理解句子的上下文和真实含义,从而导致结果不准确。

此外,区分大小写字母也有显着差异。关于模型,“Hello”和“HELLO”可以理解为两个完全不同的概念。正是这种代币编码方式的模糊性导致许多人工智能模型无法通过简单的大写测试。

东北大学博士生谢里丹·福赫特 (Sheridan Feucht) 表示,不存在“完美的代币”这样的东西。语言本身固有地包含许多复杂的元素,确定哪个是编码的最佳语义单元仍然是一个难题。

当考虑英语以外的语言时,问题会变得更加严重。当前的许多编码方法默认使用空格作为单词分隔符,但这并不适合中文、日文、韩文等语言。根据牛津大学 2023 年的一项研究,低效的语言编码会导致 AI 模型花费两倍的时间与英语相比,处理任务的时间要长。

使用这些“代币效率低下”语言的用户也可能面临较差的人工智能性能和更高的使用成本,因为许多提供商根据代币数量收费。

谷歌 DeepMind 人工智能研究员 Yennie Jun 在同年 2023 年的研究也表明,某些语言需要比英语多 10 倍的标记才能传达相同的含义。这清楚地表明了AI领域的语言不平等。

此外,据说标记化也是当前人工智能模型难以处理数学的原因。如果没有真正理解数字,标记器可能会将“380”视为一个标记,但将“381”表示为一对(“38”和“1”),破坏了数字之间的关系并导致变压器混淆。

数字编码不一致使得模型难以掌握方程和数学公式中数字之间的关系。

我们将看到,LLM 的许多奇怪行为和问题实际上都可以追溯到标记化。我们将讨论这些问题,讨论标记化为什么是错误的,以及为什么有人会找到一种方法来完全删除这个阶段。pic.twitter.com/5haV7FvbBx

— Andrej Karpathy (@karpathy) 2024 年 2 月 20 日

尽管面临许多挑战,科学家们仍在积极研究可能的解决方案。 “字节级”状态空间模型,例如 MambaByte,能够直接处理字节形式的原始数据,在处理语言“噪声”和高效文本分析方面表现出突出的潜力。然而,MambaByte 和类似模型仍处于早期研究阶段。

Sheridan Feucht 表示,“完全消除标记化是一条可能的路径,但目前对于 Transformer 来说在计算上是不可能的。”

新模型架构的出现可能是突破代币化问题的关键。在不久的将来,研究人员将继续寻找优化不同语言标记化的解决方案,目标是实现人工智能能够自然有效地理解和处理语言的未来。