理解 AI（一）：AI 到底在学什么？——从概率到语言模型

1、从“说话”这件事说起

你有没有想过，人类每天说的话，其实大部分是可以预测的？

“今天天气真——” 大多数人会接好或者不错。 “谢谢你的——” 大多数人会接帮助或者提醒。 “这个东西真的是——” 大多数人会接太棒了、太好了、很实用。

这听起来有点奇怪，但仔细想想，我们日常对话里的大量内容，其实都是可预测的。不是因为我们没有创意，而是因为语言本身就有很强的规律性。

大语言模型（LLM）的本质，其实就是一个超级强大的“下一个词预测器”。

当你说“请帮我写一封邮件”，AI 并不是真的在“思考”怎么写邮件。它在做的是：根据你输入的内容，从它学过的海量文本里，计算出下一个词最可能是什么。

比如，当 AI 看到“我喜欢吃苹”这几个字，它会预测下一个词很可能是“果”。不是 100% 确定，但概率很高。

然后，它把“果”加入输入，再预测下一个词……如此循环，直到生成完整的句子。

这就是著名的 Next Token Prediction（下一个 token 预测）。

关键在于两个字：统计。

AI 在训练时，会“读”海量的文本——网页、书籍、代码、对话记录……它没有真正理解这些内容的含义，但它是超级统计学家，它能发现：

当它见过的例子足够多时，它就学会了语言里的统计规律。不是死记硬背，而是抓住了模式。

这就是为什么 ChatGPT 能写文章、代码，能回答问题——不是因为它真的“懂”，而是因为它见过的文本太多了，对什么样的上下文后面最可能接什么词，有了一套极其精确的“概率分布”。

说到概率分布，这里有一个重要的直觉：AI 不是在回答“一个问题对应一个答案”，而是在回答“一个问题对应一个概率分布”。

举个例子。

当你问：“我想养一只宠物，推荐一下？”

AI 可以回答“猫”、“狗”、“仓鼠”、“兔子”……任何一个都可能。但它选择哪个，取决于很多因素——上下文、你之前的对话、模型本身的“倾向性”。

这就是为什么同一个问题问 AI 多次，可能得到不同的回答。它不是从固定的答案库里选，而是从概率分布里采样。

这里有一个非常神奇的现象：当模型的规模足够大、训练的数据足够多时，会涌现出一些“意料之外”的能力。

比如，大模型能理解数学题、能写代码、能做翻译——这些能力在训练时，并没有被刻意教给它。它之所以“涌现”出这些能力，是因为它从海量文本中自己学会了这些模式之间的关联。

规模（Scale）是关键。小模型做不好翻译，大模型就能做；小模型不会做数学题，大模型就能做。这种涌现能力，是 LLM 最迷人的地方之一。

回到标题的问题：AI 到底在学什么？

不是学知识，不是学逻辑，不是学推理。它学的是：语言里词与词之间的统计关系。

它通过统计大量的文本，发现了语言里的模式，然后用这套模式来“预测”下一个词。这种预测足够精准、足够多样，于是看起来就像是在“思考”、在“理解”。

这不是魔法，这是超级统计学的胜利。

理解了这一点，你就会明白 AI 的强项和局限：

因为它本质上是在生成最可能正确的文本，而不是在保证事实正确。

下一篇文章，我们会聊一个很基础但很重要的问题：Token 是什么？AI 是怎么“识字”的？

每天前进一小步，就是一个新的高度！