1、从“说话”这件事说起
你有没有想过,人类每天说的话,其实大部分是可以预测的?
“今天天气真——” 大多数人会接好或者不错。 “谢谢你的——” 大多数人会接帮助或者提醒。 “这个东西真的是——” 大多数人会接太棒了、太好了、很实用。
这听起来有点奇怪,但仔细想想,我们日常对话里的大量内容,其实都是可预测的。不是因为我们没有创意,而是因为语言本身就有很强的规律性。
2、AI 在做的事:预测下一个词
大语言模型(LLM)的本质,其实就是一个超级强大的“下一个词预测器”。
当你说“请帮我写一封邮件”,AI 并不是真的在“思考”怎么写邮件。它在做的是:根据你输入的内容,从它学过的海量文本里,计算出下一个词最可能是什么。
比如,当 AI 看到“我喜欢吃苹”这几个字,它会预测下一个词很可能是“果”。不是 100% 确定,但概率很高。
然后,它把“果”加入输入,再预测下一个词……如此循环,直到生成完整的句子。
这就是著名的 Next Token Prediction(下一个 token 预测)。
3、为什么 AI 能做到?
关键在于两个字:统计。
AI 在训练时,会“读”海量的文本——网页、书籍、代码、对话记录……它没有真正理解这些内容的含义,但它是超级统计学家,它能发现:
- “苹”后面跟“果”的概率很高
- “我喜欢”后面更可能跟“吃”而不是“踢”
- “今天天气”后面更可能是“不错”而不是“踢足球”
当它见过的例子足够多时,它就学会了语言里的统计规律。不是死记硬背,而是抓住了模式。
这就是为什么 ChatGPT 能写文章、代码,能回答问题——不是因为它真的“懂”,而是因为它见过的文本太多了,对什么样的上下文后面最可能接什么词,有了一套极其精确的“概率分布”。
4、概率分布:AI 的“想象空间”
说到概率分布,这里有一个重要的直觉:AI 不是在回答“一个问题对应一个答案”,而是在回答“一个问题对应一个概率分布”。
举个例子。
当你问:“我想养一只宠物,推荐一下?”
AI 可以回答“猫”、“狗”、“仓鼠”、“兔子”……任何一个都可能。但它选择哪个,取决于很多因素——上下文、你之前的对话、模型本身的“倾向性”。
这就是为什么同一个问题问 AI 多次,可能得到不同的回答。它不是从固定的答案库里选,而是从概率分布里采样。
5、概率模型的神奇涌现
这里有一个非常神奇的现象:当模型的规模足够大、训练的数据足够多时,会涌现出一些“意料之外”的能力。
比如,大模型能理解数学题、能写代码、能做翻译——这些能力在训练时,并没有被刻意教给它。它之所以“涌现”出这些能力,是因为它从海量文本中自己学会了这些模式之间的关联。
规模(Scale)是关键。小模型做不好翻译,大模型就能做;小模型不会做数学题,大模型就能做。这种涌现能力,是 LLM 最迷人的地方之一。
6、本质是什么
回到标题的问题:AI 到底在学什么?
不是学知识,不是学逻辑,不是学推理。它学的是:语言里词与词之间的统计关系。
它通过统计大量的文本,发现了语言里的模式,然后用这套模式来“预测”下一个词。这种预测足够精准、足够多样,于是看起来就像是在“思考”、在“理解”。
这不是魔法,这是超级统计学的胜利。
理解了这一点,你就会明白 AI 的强项和局限:
- 强项:语言模式丰富、规律明显的内容——写文章、代码、邮件、总结、翻译
- 局限:需要精确事实推理、长程逻辑、或者“语言之外”的知识时,它可能“一本正经地胡说八道”
因为它本质上是在生成最可能正确的文本,而不是在保证事实正确。
下一篇文章,我们会聊一个很基础但很重要的问题:Token 是什么?AI 是怎么“识字”的?
每天前进一小步,就是一个新的高度!