理解 AI(二):Token 是什么?——AI 的识字方式与分词逻辑

1、Token?不只是“词”

如果你用过 ChatGPT 或者其他大语言模型,一定见过“按 Token 计费”的说法。1K tokens 多少钱,100K tokens 多少钱。

那 Token 到底是什么?

一个常见的误解是:1 Token = 1 个英文单词

这个说法对了一半,但不全对。准确地说,Token 是 AI 处理文本的基本单位,但它的大小不是固定的。

2、AI 是怎么“切分”文字的?

AI 不是按“单词”或者“汉字”来处理文本的,它用的是一种叫做 BPE(Byte Pair Encoding) 的分词算法。

BPE 的核心思想很朴素:

把最常一起出现的字符组合,合并成一个“新字符”。

举个例子。假设 AI 读到大量的英文文本,发现:

  • “e” 单独出现的频率很高
  • “r” 单独出现的频率很高
  • 但 “er” 这个组合出现的频率更高

那么 BPE 就会把 “er” 合并成一个 Token。

继续这个过程:

  • “er” + “er” → “erer”
  • “er” + “ ” → “er ”

最终,AI 会形成一套自己的“词汇表”,里面的每个 Token 都是反复出现的高频组合

3、英文 vs 中文:Token 数为什么不同?

这是理解 Token 的关键。

英文文本的 Token 数 ≈ 单词数 × 0.75

因为英文单词往往对应 1-2 个 Token。比如 hello 是一个 Token,artificial 可能分成 art + ificial 两个。

中文文本的 Token 数 ≈ 汉字数 × 1.5 到 2

因为中文没有天然的“空格”分隔,AI 需要把连续的汉字组合成 Token。一个常见 Token 可能是 1-2 个汉字。

举个例子:

文本 英文 Token 数(估) 中文 Token 数(估)
Hello, world! ~3 -
你好,世界! - ~6-8

这就是为什么用中文和 AI 对话,实际上消耗的 Token 往往更多

4、Token 的一些有趣特性

4.1 不完整的词

BPE 分词可能会把一个完整的英文单词劈成两半,分别放在不同的 Token 里。

比如 tokenization 可能被切成:

  • token + ization

这不是 bug,而是 BPE 算法的正常行为——它追求的是编码效率,而不是“语义完整性”。

4.2 数字的切分

数字在 AI 眼里非常“奢侈”。

每个数字字符(0-9)基本上都是独立的 Token。数字越大,Token 越多:

  • 1 → 1 Token
  • 123 → 3 Tokens
  • 1234567890 → 10 Tokens

这也是为什么 AI 处理数字时往往不够精确——数字被切得支离破碎,失去了“数值感”。

4.3 代码的 Token 效率

有趣的是,AI 处理代码的 Token 效率往往比英文文本还高。

因为代码里充满了重复的模式:变量名、函数名、关键字……这些重复出现的高频组合,很快就被合并成了单独的 Token。

所以同样是 1000 个 Token,代码能表达的信息量往往比普通文本更丰富。

5、Token 限制:AI 的“记忆窗口”

每个 AI 模型都有一个 Token 上限(Context Window),比如:

  • GPT-3.5 Turbo:16K / 128K Tokens
  • GPT-4:8K / 32K / 128K Tokens
  • Claude 3:200K Tokens
  • Claude 3.5:1M Tokens(超长上下文)

这个上限包括输入输出的总 Token 数。

当你和 AI 对话时:

  • 你的问题算 Token
  • AI 的回答算 Token
  • 之前的对话历史也算 Token

如果对话太长,超过了这个上限,AI 就会“忘记”之前的内容——不是真的忘记,而是最早的部分会被“裁掉”

这就是为什么长对话里 AI 会出现“失忆”现象。

6、为什么理解 Token 很重要?

理解了 Token,你就能:

  1. 估算成本:知道输入一段文字大概会消耗多少 Token
  2. 优化 Prompt:通过精简表述,减少 Token 消耗
  3. 理解 AI 的行为:为什么长文本处理不好,为什么数字计算不精确
  4. 更好地使用 AI:知道怎么组织信息,让 AI 更高效地理解你的意图

7、本质是什么

Token 是 AI 处理文本的基本单位,不是天然的语言单位。

AI 通过 BPE 等算法,把文本切分成高频出现的“词块”。这些词块的大小不固定,英文通常 0.75 倍于单词数,中文通常是汉字数的 1.5-2 倍。

Token 的概念解释了 AI 计费、长上下文限制、数字处理等一系列问题。理解了 Token,你对 AI 的认知就又深了一层。


下一篇文章,我们会聊一个很多人困惑的问题:上下文窗口(Context Window)是什么?为什么 AI 会“失忆”?

每天前进一小步,就是一个新的高度!