理解 AI(一):AI 到底在学什么?——从概率到语言模型

1、从“说话”这件事说起

你有没有想过,人类每天说的话,其实大部分是可以预测的?

“今天天气真——” 大多数人会接好或者不错。 “谢谢你的——” 大多数人会接帮助或者提醒。 “这个东西真的是——” 大多数人会接太棒了、太好了、很实用。

这听起来有点奇怪,但仔细想想,我们日常对话里的大量内容,其实都是可预测的。不是因为我们没有创意,而是因为语言本身就有很强的规律性。

2、AI 在做的事:预测下一个词

大语言模型(LLM)的本质,其实就是一个超级强大的“下一个词预测器”

当你说“请帮我写一封邮件”,AI 并不是真的在“思考”怎么写邮件。它在做的是:根据你输入的内容,从它学过的海量文本里,计算出下一个词最可能是什么

比如,当 AI 看到“我喜欢吃苹”这几个字,它会预测下一个词很可能是“果”。不是 100% 确定,但概率很高。

然后,它把“果”加入输入,再预测下一个词……如此循环,直到生成完整的句子。

这就是著名的 Next Token Prediction(下一个 token 预测)。

3、为什么 AI 能做到?

关键在于两个字:统计

AI 在训练时,会“读”海量的文本——网页、书籍、代码、对话记录……它没有真正理解这些内容的含义,但它是超级统计学家,它能发现:

  • “苹”后面跟“果”的概率很高
  • “我喜欢”后面更可能跟“吃”而不是“踢”
  • “今天天气”后面更可能是“不错”而不是“踢足球”

当它见过的例子足够多时,它就学会了语言里的统计规律。不是死记硬背,而是抓住了模式。

这就是为什么 ChatGPT 能写文章、代码,能回答问题——不是因为它真的“懂”,而是因为它见过的文本太多了,对什么样的上下文后面最可能接什么词,有了一套极其精确的“概率分布”。

4、概率分布:AI 的“想象空间”

说到概率分布,这里有一个重要的直觉:AI 不是在回答“一个问题对应一个答案”,而是在回答“一个问题对应一个概率分布”

举个例子。

当你问:“我想养一只宠物,推荐一下?”

AI 可以回答“猫”、“狗”、“仓鼠”、“兔子”……任何一个都可能。但它选择哪个,取决于很多因素——上下文、你之前的对话、模型本身的“倾向性”。

这就是为什么同一个问题问 AI 多次,可能得到不同的回答。它不是从固定的答案库里选,而是从概率分布里采样

5、概率模型的神奇涌现

这里有一个非常神奇的现象:当模型的规模足够大、训练的数据足够多时,会涌现出一些“意料之外”的能力

比如,大模型能理解数学题、能写代码、能做翻译——这些能力在训练时,并没有被刻意教给它。它之所以“涌现”出这些能力,是因为它从海量文本中自己学会了这些模式之间的关联。

规模(Scale)是关键。小模型做不好翻译,大模型就能做;小模型不会做数学题,大模型就能做。这种涌现能力,是 LLM 最迷人的地方之一。

6、本质是什么

回到标题的问题:AI 到底在学什么?

不是学知识,不是学逻辑,不是学推理。它学的是:语言里词与词之间的统计关系

它通过统计大量的文本,发现了语言里的模式,然后用这套模式来“预测”下一个词。这种预测足够精准、足够多样,于是看起来就像是在“思考”、在“理解”。

这不是魔法,这是超级统计学的胜利。

理解了这一点,你就会明白 AI 的强项和局限:

  • 强项:语言模式丰富、规律明显的内容——写文章、代码、邮件、总结、翻译
  • 局限:需要精确事实推理、长程逻辑、或者“语言之外”的知识时,它可能“一本正经地胡说八道”

因为它本质上是在生成最可能正确的文本,而不是在保证事实正确


下一篇文章,我们会聊一个很基础但很重要的问题:Token 是什么?AI 是怎么“识字”的?

每天前进一小步,就是一个新的高度!