# 什么？AI != 百度搜索，AI 是文字接龙？

作者：小傅哥
博客：https://bugstack.cn (opens new window)

沉淀、分享、成长，让自己和他人都能有所收获！😄

大家好，我是技术UP主小傅哥。

你以为 AI 像是百度搜索一样的，更准的内容检索吗？但恰恰相反，AI 是一点也不会检索，而是文字接龙，从一个字/词（token）预测下一个字/词（token）。那凭直觉预测（温度），AI 不得是个大傻子？咋那么准呢？

如果一开始就知道，这货就是在组词呢，我也担心准确率！

单凭随机预判的创作逻辑，听着是不是觉得 AI 笨得离谱？可现实里它既能流畅对话、梳理逻辑，还能写文编程、解答难题，精准度远超大家想象。

这份反差感恰恰是大模型最有意思的奥秘。看似毫无思考逻辑的逐词推演，叠加海量数据沉淀、语义编码、注意力联动层层机制，硬生生拼凑出堪比人脑的智慧表现。接下来咱们抛开晦涩公式，顺着技术发展脉络，一层层扒开 AI 聪明又时常犯傻的底层真相。

💐掌握本质，实战项目，积累经验，储备能力。就永远也不会被甩下车！

# 引子：先建立一个核心比喻

整篇文章我都会围绕一个比喻展开：

AI 大模型 = 一个读完了整个互联网，但完全没有人生经历的"超级文字接龙选手"。

记住这句话。后面所有概念，都是在这个比喻基础上一层层加细节。

graph LR
    A[整个互联网的文字] --> B[喂给一个超大的神经网络]
    B --> C["学会一件事: 预测下一个字"]
    C --> D["就成了你看到的 AI"]

1
2
3
4

# 一、AI 的"前世今生"——一部充满故事的编年史

在我们拆解技术之前，先讲讲 AI 是怎么一步步走到今天的。这段历史不仅有意思，而且每个转折都对应着今天 AI 的一个能力或局限。读完你会发现：原来 ChatGPT 不是凭空出现的，它身上每一块拼图都有自己的故事。

# 0.1 史前时代（1950s - 2000s）：AI 的两次"寒冬"

graph LR
    A["1956 达特茅斯会议 'AI'一词诞生"] --> B["1970s 第一次寒冬 规则系统撞墙"]
    B --> C["1980s 专家系统复兴"]
    C --> D["1990s 第二次寒冬 'AI 是骗子'"]
    D --> E["2006 深度学习苗头"]

1
2
3
4
5

1956 年夏天，达特茅斯学院。一群年轻科学家（其中包括后来图灵奖得主 McCarthy、Minsky）开了一个为期两个月的研讨会。会议宣言里第一次出现了 "Artificial Intelligence" 这个词。他们当时乐观地认为：再过 10 年，机器就能像人一样思考。

结果呢？他们错了——错得很离谱。

接下来 50 年里，AI 经历了两次"寒冬"。每次都是科学家承诺得太多、做不到、政府断了经费、行业崩盘。中间出现过一些有意思的尝试：

专家系统：靠人手工写几万条规则，让计算机模拟医生诊断、律师答疑。结果发现规则越加越多，越来越乱，根本扩展不动。
统计 NLP：放弃规则，改用数学统计。能做翻译，但翻得磕磕巴巴。

💡 关键启示：人类花了 50 年才明白一件事——"教"机器是教不会的，得让机器"自己学"。这就为后来的深度学习埋下了种子。

# 0.2 深度学习的觉醒（2006 - 2012）：三个"叛逆者"的坚持

整个 90 年代，神经网络是一个被主流抛弃的方向。当时学术界普遍认为"神经网络又慢又难训、永远做不出有用的东西"。

但有三个人就是不信邪：

graph TB
    A["Geoffrey Hinton 多伦多大学"] --> D["2006 年提出深度信念网络 证明深层网络可以训练"]
    B["Yann LeCun 纽约大学"] --> E["1998 年发明 CNN 用于识别手写数字"]
    C["Yoshua Bengio 蒙特利尔大学"] --> F["2003 年用神经网络做语言模型 Word Embedding 的雏形"]
    D --> G["2012 年 AlexNet 横空出世 把图像识别错误率 从 26% 直接砍到 16%"]
    E --> G
    F --> G

1
2
3
4
5
6
7

2012 年是 AI 的"创世纪"年份。Hinton 的学生 Alex Krizhevsky 用 GPU 训练了一个深度神经网络（AlexNet），在 ImageNet 图像识别比赛中把第二名甩开了 10 个百分点。

这一战的意义在于——所有人突然意识到：GPU + 大数据 + 深层网络，原来真的可以工作！

那三位"叛逆者"，2018 年共同拿了图灵奖（计算机界的诺贝尔奖）。坚持了 30 年的冷板凳，终于热了。

💡 关键启示：今天所有 AI 的算力基础是 NVIDIA 的 GPU。这家公司原本是做游戏显卡的，从来没想过会成为 AI 时代的卖水人。老黄（黄仁勋）现在是世界级首富——而这一切的起点，就是 2012 年 AlexNet 选择用 GPU 训练。

# 1.3 RNN 的崛起与困境（2013 - 2016）：长文本的"金鱼记忆"

深度学习在图像上爆发后，自然语言处理（NLP）也跟着进入了深度学习时代。当时的主角是 RNN（循环神经网络） 和它的升级版 LSTM。

它们的思路是：处理一句话时，一个词一个词地读，每读一个就更新一下"记忆"。

graph LR
    A[词1] --> H1[记忆状态1]
    B[词2] --> H2[记忆状态2]
    C[词3] --> H3[记忆状态3]
    D[词4] --> H4[记忆状态4]
    H1 --> H2 --> H3 --> H4

1
2
3
4
5
6

听起来很合理，对吧？但 RNN 有两个致命缺陷：

缺陷一：金鱼记忆

句子稍微一长，前面的信息就忘了。比如：

"小明小时候在云南长大，跟爷爷奶奶一起生活了十几年，吃米线、过泼水节，所以他的母语是____。"

RNN 处理到最后那个空时，前面"云南"的信息几乎已经忘光了，它猜不出"傣语"或"普通话"。

缺陷二：必须按顺序处理，没法并行

RNN 必须先读完第 1 个词，才能读第 2 个；读完第 2 个，才能读第 3 个……

graph LR
    A[词1] --> B[词2] --> C[词3] --> D[词4] --> E[词5]

1
2

这意味着——你买再多 GPU 也没用，因为它们只能干等着。RNN 的训练速度被卡死了。

整个 2013-2016 年，NLP 学术界都在拼命改进 RNN，发明了 LSTM、GRU、双向 RNN、注意力机制（早期版本）……就是治不好这两个病。

💡 关键启示：技术的突破往往不是改良，而是换一种思路。RNN 走到了死胡同——救它的不是更聪明的 RNN，而是把 RNN 整个扔掉的新架构。

# 1.4 2017 年的"圣经时刻"：Transformer 横空出世

2017 年 6 月 12 日，Google 的 8 位研究员（Vaswani、Shazeer、Parmar 等）在 arXiv 上贴了一篇论文:

《Attention is All You Need》（你只需要注意力）

这个标题狂得可以——他们直接说：之前所有的 RNN、LSTM 都不需要了。只用一个叫"注意力"的机制，就够了。

graph TB
    A["2017 前: RNN 时代 串行、健忘、慢"] --> B["2017.6 Transformer 论文"]
    B --> C["完全并行处理"]
    B --> D["一次看全篇"]
    B --> E["训练速度提升数十倍"]
    C --> F["2018 GPT-1 1.17 亿参数"]
    D --> F
    E --> F
    F --> G["2019 GPT-2 15 亿参数 OpenAI 一度不敢发布"]
    G --> H["2020 GPT-3 1750 亿参数 震惊世界"]

1
2
3
4
5
6
7
8
9
10

这篇论文有几个戏剧性的小故事：

8 个作者后来全部离开了 Google。其中 Noam Shazeer 创办了 Character.AI（2024 年 8 月，Google 用约 27 亿美元的授权交易，把他和团队请回 Google 共同领导 Gemini 项目）；Aidan Gomez 创办了 Cohere（估值已超数十亿美元）；Łukasz Kaiser 去了 OpenAI，参与了 GPT-4 与 o1/o3 的核心研发。"Transformer 八子"几乎组成了硅谷 AI 圈最贵的同学录。
Google 自己反而错过了大模型时代。它发明了 Transformer，但因为搜索业务太赚钱、又怕新产品冲击老业务，迟迟没有大规模押注。结果让一个名不见经传的小公司——OpenAI——抢了先。
论文标题来自一首披头士的歌：《All You Need Is Love》。作者 Llion Jones 后来回忆，取这个名字"花了五秒钟"，他当时根本没想到大家真会用——结果它成了 AI 史上最著名的论文之一。

# 1.5 OpenAI 的豪赌（2018 - 2022）：把 Transformer 做大

Transformer 出来之后，大部分研究者还在拿它做小规模实验。但有一家公司决定走极端路线——这家公司就是 OpenAI。

它的思路简单粗暴：

Transformer 既然好用，那就把它做大、做大、再做大。

graph LR
    A["GPT-1 2018 1.17 亿参数"] --> B["GPT-2 2019 15 亿参数"]
    B --> C["GPT-3 2020 1750 亿参数"]
    C --> D["ChatGPT 2022.11 5 天破百万用户"]
    D --> E["GPT-4 2023 多模态"]

1
2
3
4
5

每一代都有戏剧性的事件：

GPT-2（2019）：OpenAI 训完后吓得不敢全开源，担心被用来生成假新闻。这一举动在学术界引起轩然大波，被批评"违背开源精神"。但后来事实证明，他们的担心完全不是多余——AI 生成内容的滥用问题在 2023 年后真的全面爆发。这东西我带着大家部署过，像个傻狗。【部署教程】基于GPT2训练了一个傻狗机器人 (opens new window)
GPT-3（2020）：1750 亿参数，训练成本业界估算约 460 万到 1200 万美元。当时业内很多人质疑："堆参数有意义吗？" 结果 GPT-3 一发布，能写诗、能编程、能模仿任何人的口吻——所有质疑瞬间消失。
ChatGPT（2022.11）：OpenAI 内部其实只是想"小试一下"，把 GPT-3.5 包了个聊天界面，没人觉得它会火。结果上线 5 天破 100 万用户，2 个月破 1 亿——成为人类历史上用户增长最快的产品（连 TikTok、Instagram 都没这么快）。微软 CEO 纳德拉看到数据后说了一句话："我们要让 Google 跳舞（dance）。"

💡 关键启示：很多人以为 ChatGPT 是个"突然出现"的产品。其实它是一条长达 5 年的押注：OpenAI 从 2018 年就开始押 Transformer + 大规模 + 自回归这条路。那些看起来一夜爆红的东西，背后都有人在冷板凳上坐了五年十年。

# 1.6 中国 AI 的奋起直追（2023 - 2025）：从跟跑到部分领跑

ChatGPT 火了之后，中国整个科技圈被打了个措手不及。但中国速度起来后，追赶的速度也惊人。

graph TB
    A["2023 ChatGPT 冲击波"]
    A --> B["百度文心一言 第一个国产对标产品"]
    A --> C[阿里通义千问]
    A --> D[字节豆包]
    A --> E[腾讯混元]
    A --> F["月之暗面 Kimi 长上下文先驱"]
    A --> G["智谱 GLM"]
    A --> H["DeepSeek 2024 末杀出黑马"]
    H --> I["2025 DeepSeek-R1 用 1/10 成本逼平 OpenAI o1 震动全球资本市场"]

1
2
3
4
5
6
7
8
9
10

特别值得讲的是 DeepSeek：

它是一家杭州的对冲基金（幻方量化）孵化出来的 AI 公司，没什么明星光环。
2024 年 12 月发布 DeepSeek-V3，V3 的预训练成本约 557 万美元（基于 2048 张 H800 GPU、约 278 万 GPU 小时），仅为同级别模型的几分之一。
2025 年 1 月 20 日发布 DeepSeek-R1（基于 V3 加强化学习训练），推理能力对标 OpenAI 当时最强的 o1，而且完全开源。
这条消息直接引爆全球资本市场：2025 年 1 月 27 日，NVIDIA 股价单日暴跌约 17%，市值蒸发近 5890 亿美元——创下美股历史上单只股票单日市值蒸发的新纪录，登上全球财经头条。

中国 AI 从 2023 年的"对标 ChatGPT"，到 2025 年的"在某些方向反过来定义标准"，只用了两年。这在科技史上极其罕见。

💡 关键启示：AI 不是"谁有钱谁赢"的游戏。算法创新、工程优化、开源共建，三样东西配齐，小团队也能掀翻巨头。

# 1.7 把历史浓缩成一句话

graph LR
    A["1956 AI 诞生"] --> B["1986-2006 神经网络冷板凳"]
    B --> C["2012 AlexNet 觉醒"]
    C --> D["2017 Transformer 革命"]
    D --> E["2020 GPT-3 涌现"]
    E --> F["2022.11 ChatGPT 出圈"]
    F --> G["2024-2025 Agent + 推理模型"]

1
2
3
4
5
6
7

70 年的 AI 史，可以浓缩成一句话：

人类花了 60 年明白"教不会"，花了 5 年学会"让它自己学"，又花了 5 年发现"做大就行"——然后世界就变了。

理解了这段历史，你就能理解今天 AI 的每一个特点——为什么必须用 GPU、为什么要堆参数、为什么会有幻觉、为什么 OpenAI 一家独大、为什么开源模型现在能反杀。

下面小傅哥和大家一起，正式进入技术拆解。这部分内容来自于各个 LLM 公司所发布的资料，进行的理解、总结，如果有偏差，可以指出。🍻

# 二、AI 到底在做什么？（生活直觉版）

# 2.1 它就是在玩文字接龙

你看到的所有 AI——ChatGPT、豆包、文心一言、Claude、Gemini——它们做的事只有一件：

看一段话，猜下一个字最可能是什么。

比如你输入"今天天气真不"，它在脑子里算的是：

graph LR
    A["今天天气真不"] --> B{下一个字?}
    B --> C["错 → 70%"]
    B --> D["好 → 20%"]
    B --> E["赖 → 8%"]
    B --> F["想 → 2%"]

1
2
3
4
5
6

然后它选概率最高的"错"，把"今天天气真不错"作为新的输入，再猜下一个字……

一个字一个字接龙，最后接出一整段话。 就这么简单。

💡 这里有个反直觉的事实：AI 没有"想好一段话再说出来"的能力。它是边接边说的，连它自己都不知道这句话最后会说成什么样。

# 2.2 它怎么学会"哪个字概率高"的？

简单一句话：

把整个互联网（书、网页、维基、知乎、新闻、论文……）喂给一个超大的神经网络，让它做亿万次"完形填空"练习。

graph TB
    A[书籍] --> Z[喂给神经网络]
    B[网页] --> Z
    C[维基百科] --> Z
    D[新闻] --> Z
    E[论文] --> Z
    F[代码] --> Z
    Z --> Y["做完形填空练习 把'今天天气真__'里挖空, 让模型猜'错'"]
    Y --> X[做几万亿次]
    X --> W[模型形成'语感']

1
2
3
4
5
6
7
8
9
10

练了几万亿次之后，它就形成了一种统计上的语感——知道在什么上下文下，什么字出现概率最高。

这是第一层。听懂了这一层，你已经超过了 80% 的人。下面我们往深里走一层。

# 三、那"字"在 AI 眼里长什么样？（技术入门）

# 3.1 Token：AI 眼里的"最小单位"

刚才说"猜下一个字"，其实不太准确。AI 处理的最小单位不是"字"，叫 Token（中文有时翻译成"词元"）。

Token 可以是：

一个英文单词（如 cat）
一个英文单词的片段（如 Learn + ing）
一个汉字（如 人）
一个汉字组合（如 人工 + 智能，看 tokenizer 怎么切）

graph LR
    A["原文: Learning AI is fun"] --> B["Tokenizer 切分"]
    B --> C["Learn"]
    B --> D["ing"]
    B --> E[" AI"]
    B --> F[" is"]
    B --> G[" fun"]

1
2
3
4
5
6
7

graph LR
    A["原文: 我爱人工智能"] --> B["Tokenizer 切分"]
    B --> C["我"]
    B --> D["是"]
    B --> E["一个"]
    B --> F["码农"]

1
2
3
4
5
6

为什么要这么切？因为这样既能覆盖所有词汇（即使是新词、错别字），又能让模型处理的"词表"控制在几万个的规模，不至于爆炸。

💡 冷知识：你跟 AI 聊天，按 Token 数收费。中文一个汉字大约 1-2 个 Token，英文一个单词大约 1-1.5 个 Token。所以用中文跟 GPT 聊天比英文贵一点。

# 3.2 Token 怎么变成数字？

计算机只认数字。所以每个 Token 在 AI 眼里其实是一个编号：

graph LR
    A["我"] --> A1["#15634"]
    B["是"] --> B1["#27891"]
    C["一"] --> C1["#48127"]
    D["个"] --> D1["#51209"]
    E["码农"] --> E1["#63724"]

1
2
3
4
5
6

好——但只有编号还不够。"15634"和"27891"在数学上看就是两个数字，没有任何含义。

我们需要让计算机知道："我"和"你"很相似，"狗"和"猫"很相似，"苹果"和"香蕉"很相似。

这就引出了下一个核心概念——

# 3.3 Embedding：把"意思"变成"坐标"

Embedding 是 AI 领域最优雅的发明之一。

它的思路是：给每个词一个高维空间里的坐标。坐标相近的词，意思就相近。

为了方便理解，我们把"高维空间"简化成二维：

graph TB
    subgraph 语义空间
        A["猫 (2, 8)"]
        B["狗 (3, 9)"]
        C["老虎 (3, 7)"]
        D["苹果 (8, 2)"]
        E["香蕉 (9, 3)"]
        F["手机 (5, 5)"]
    end

1
2
3
4
5
6
7
8
9

在这个空间里：

猫、狗、老虎挤在一起（都是动物）
苹果、香蕉挤在一起（都是水果）
手机离它们都远（电子产品）

真实的 Embedding 不是 2 维，而是几百到几千维。维度越多，能表达的语义关系就越细腻。

Embedding 最神奇的一点：可以做数学运算

Word2Vec（Google 2013）发现了一个经典现象：

   vec("国王") - vec("男人") + vec("女人") ≈ vec("女王")
   vec("北京") - vec("中国") + vec("法国") ≈ vec("巴黎")

1
2

这意味着语义关系被编码成了"方向"。"性别"是一个方向，"国家-首都"是另一个方向。

graph LR
    A[国王] -.减男人.-> B[?]
    B -.加女人.-> C[女王]
    D[北京] -.减中国.-> E[?]
    E -.加法国.-> F[巴黎]

1
2
3
4
5

💡 这就是为什么 AI 能"理解"语言：因为它把所有词变成了坐标，理解就变成了坐标之间的加减乘除——计算机最擅长的事。

到这一层，你已经知道了 AI 处理语言的底层数学了。继续往深走——

# 四、手把手教你"算"——Token 和 Embedding 的演进与实战

前面讲了思路，这一节我们真的动手算。看完这一节，你能：

自己估算一段话有多少 Token
自己算两个词之间的"语义距离"
知道 Embedding 是怎么"训练"出来的（不是凭空给的坐标）

# A. Token 怎么算？三代演进，由浅入深

# A.1 第一代：按词切分（Word-level）

最朴素的想法：遇到空格就切。

原文：  I love AI
切分：  ["I", "love", "AI"]
Token 数 = 3

1
2
3

问题：词表会爆炸。英文的"runs / running / ran"会被当成三个完全不同的词；中文更惨——"中国人 / 中国 / 国人"得各占一个位置。最终词表能膨胀到上百万。

# A.2 第二代：按字符切分（Char-level）

退到极致：一个字符一个 Token。

原文：  I love AI
切分：  ["I", " ", "l", "o", "v", "e", " ", "A", "I"]
Token 数 = 9

1
2
3

问题：词表小了（英文 26 个字母 + 标点就够了），但序列变得超级长。一句普通的话拆成几十上百个 Token，模型算起来又慢又笨。

# A.3 第三代：BPE 子词切分（现代标准）

BPE（Byte Pair Encoding）：一种"由数据学出来"的折中方案。

它的思路非常聪明：让常见的组合保留为一个 Token，少见的拆开。

举个直观例子，BPE 是这样"训练"出来的：

Step 1: 一开始按字母切
"low low low lowest" → ["l","o","w","l","o","w","l","o","w","l","o","w","e","s","t"]

Step 2: 数哪两个字符相邻出现得最频繁
"l"+"o" 出现了 4 次 → 合并成 "lo"

Step 3: 继续数
"lo"+"w" 出现了 4 次 → 合并成 "low"

Step 4: 继续...
最后形成的词表里就有了 "low" 这个常见单位
而稀有词如 "lowest" 会被切成 "low"+"est"

1
2
3
4
5
6
7
8
9
10
11
12

结果：常见词整体保留（短而精），罕见词拆成片段（仍能表达）。词表大小被控制在 5 万–10 万之间，覆盖几乎所有可能的输入。

# A.4 真实 GPT 的切分例子（你可以亲自验证）

下面是一些真实通过 OpenAI tokenizer 验证过的 Token 计数（GPT-4 系列使用的 cl100k_base）：

原文	Token 切分（示意）	Token 数
`Hello, world!`	`["Hello", ",", " world", "!"]`	4
`ChatGPT is amazing`	`["Chat", "G", "PT", " is", " amazing"]`	5
`我爱人工智能`	`["我", "爱", "人工", "智能"]` 或 `["我","爱","人","工","智","能"]`	4–6
`你好`	`["你","好"]`（每个汉字 1 token，但每个 token 实际占 2-3 字节）	2
`🚀`	`["🚀"]`（一个 emoji 通常占 2-4 个 byte-level token）	2–4

🔧 想自己验证？ 打开 OpenAI 官方 Tokenizer 页面：platform.openai.com/tokenizer (opens new window)，把任何文本贴进去，它会实时高亮告诉你怎么切的、占多少 Token。

# A.5 一个能用的"心算公式"

工程师常用的近似估算法：

英文：1 token ≈ 0.75 个英文单词 ≈ 4 个英文字符
中文：1 个汉字 ≈ 1.5 ~ 2 个 token

1
2

亲自算一下：

"今天天气真不错。" — 共 8 个字符（含句号）估算：8 × 1.5 ≈ 12 个 token（实测 GPT-4：10 个 token，吻合）

"Hello, my name is GPT-4." — 共 5 个单词 + 标点估算：5 ÷ 0.75 ≈ 7 个 token（实测：8 个 token，基本吻合）

# A.6 这能帮你做什么？算钱！

OpenAI GPT-4o 当前价格约（举例）：

输入：$2.50 / 百万 token
输出：$10   / 百万 token

1
2

实战：你写一个客服机器人，每次对话平均：

系统 prompt：500 token
用户问题：50 token
AI 回答：300 token

单次对话成本：

输入：(500 + 50) tokens × $2.50 / 1,000,000 = $0.001375
输出： 300       tokens × $10   / 1,000,000 = $0.003
合计：≈ $0.0044 / 次对话

1
2
3

每天 10000 次对话：$44/天 ≈ $1320/月。这就是为什么大型 AI 应用必须精打细算每一个 Token。

# B. Embedding 怎么算？从"坐标"到"相似度"

# B.1 第一代：One-Hot（独热编码）

最早的做法。假设词表有 5 个词：[猫, 狗, 苹果, 香蕉, 手机]。

猫    →  [1, 0, 0, 0, 0]
狗    →  [0, 1, 0, 0, 0]
苹果  →  [0, 0, 1, 0, 0]
香蕉  →  [0, 0, 0, 1, 0]
手机  →  [0, 0, 0, 0, 1]

1
2
3
4
5

致命问题：任意两个词的距离都一样（都是 √2），完全没有语义信息。

# B.2 第二代：共现矩阵（Co-occurrence）

观察："猫"和"狗"经常出现在同一句话里，"猫"和"手机"很少。所以统计两个词在同一窗口内出现的次数。

词表：猫 / 狗 / 苹果 / 香蕉 / 手机

共现矩阵（简化）：
        猫  狗  苹果 香蕉 手机
   猫  [ 0,  8,  1,  1,  0 ]
   狗  [ 8,  0,  1,  1,  0 ]
   苹果[ 1,  1,  0,  9,  0 ]
   香蕉[ 1,  1,  9,  0,  0 ]
   手机[ 0,  0,  0,  0,  0 ]

1
2
3
4
5
6
7
8
9

每一行就是这个词的初代 "Embedding"！你已经能看出来：

猫 [0,8,1,1,0] 和狗 [8,0,1,1,0] 非常像 → 它们语义相近
苹果 [1,1,0,9,0] 和香蕉 [1,1,9,0,0] 非常像 → 它们语义相近

问题：维度等于词表大小，太大太稀疏。

# B.3 第三代：Word2Vec（2013 Google）—— 划时代

把共现矩阵压缩到几百维稠密向量。原理简化到极致就是：

训练一个小神经网络去做"猜词"游戏：根据中心词猜上下文词。猜对了就调整权重。训练完成后，神经网络中间层的权重，就是每个词的 Embedding。

graph LR
    A["输入: 猫"] --> B["投影层 查 Embedding 表"]
    B --> C["中间向量 300 维"]
    C --> D[输出层]
    D --> E["预测周围词: '抓','跳','叫'..."]

1
2
3
4
5

# B.4 用真实 Embedding 算一次"语义距离"

为了让你看见数字，我们用一个简化到 4 维的演示（真实是 300/768/1536 维）：

猫     ≈ [ 0.91,  0.85,  0.10, -0.08]
狗     ≈ [ 0.88,  0.83,  0.12, -0.06]
老虎   ≈ [ 0.82,  0.79,  0.05, -0.10]
苹果   ≈ [ 0.05, -0.12,  0.90,  0.86]
香蕉   ≈ [ 0.08, -0.10,  0.88,  0.91]
手机   ≈ [-0.30, -0.25, -0.40, -0.35]

1
2
3
4
5
6

衡量"语义相似度"最常用的是 余弦相似度（Cosine Similarity）——也就是衡量两个向量"指向是否接近"。

# B.5 余弦相似度公式（不要怕，跟着算一遍）

公式：

cosine(A, B) = (A·B) / (|A| × |B|)

其中：
   A·B = a1×b1 + a2×b2 + ... + an×bn   （点积）
  |A|  = √(a1² + a2² + ... + an²)       （向量长度）

1
2
3
4
5

手算示例：算"猫"和"狗"的相似度

A = 猫 = [0.91, 0.85, 0.10, -0.08]
B = 狗 = [0.88, 0.83, 0.12, -0.06]

Step 1: 算点积 A·B
A·B = 0.91×0.88 + 0.85×0.83 + 0.10×0.12 + (-0.08)×(-0.06)
    = 0.8008 + 0.7055 + 0.012 + 0.0048
    = 1.5231

Step 2: 算 A 的长度
|A| = √(0.91² + 0.85² + 0.10² + 0.08²)
    = √(0.8281 + 0.7225 + 0.01 + 0.0064)
    = √1.567
    ≈ 1.2518

Step 3: 算 B 的长度
|B| = √(0.88² + 0.83² + 0.12² + 0.06²)
    = √(0.7744 + 0.6889 + 0.0144 + 0.0036)
    = √1.4813
    ≈ 1.2171

Step 4: 算余弦相似度
cosine(猫, 狗) = 1.5231 / (1.2518 × 1.2171)
              = 1.5231 / 1.5236
              ≈ 0.9997

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

结论：猫和狗的相似度 ≈ 0.9997（满分 1.0），非常相近。

# B.6 再算"猫"和"手机"对比一下

A = 猫   = [ 0.91,  0.85,  0.10, -0.08]
B = 手机 = [-0.30, -0.25, -0.40, -0.35]

A·B = 0.91×(-0.30) + 0.85×(-0.25) + 0.10×(-0.40) + (-0.08)×(-0.35)
    = -0.273 + (-0.2125) + (-0.04) + 0.028
    = -0.4975

|B| = √(0.09 + 0.0625 + 0.16 + 0.1225) = √0.435 ≈ 0.6595

cosine(猫, 手机) = -0.4975 / (1.2518 × 0.6595)
                = -0.4975 / 0.8255
                ≈ -0.6027

1
2
3
4
5
6
7
8
9
10
11
12

结论：猫和手机的相似度 ≈ -0.60（负数意味着语义相反方向）。

# B.7 一张表看清楚

词对	余弦相似度	解读
猫 vs 狗	≈ 0.9997	同类、几乎重合
猫 vs 老虎	≈ 0.997	同类、强相关
苹果 vs 香蕉	≈ 0.998	同类水果
猫 vs 苹果	≈ 0	几乎正交（不相关）
猫 vs 手机	≈ -0.60	强烈不相关

这就是 RAG（检索增强）的数学基础：把你的问题变成一个向量，把知识库每段文字变成向量，然后用余弦相似度找最相近的那几段——给 AI 当"参考资料"。

# B.8 验证经典的"国王 - 男人 + 女人 ≈ 女王"

假设我们有这些向量（演示用，4 维简化）：

国王 = [0.95, 0.20, 0.85, 0.10]
男人 = [0.30, 0.10, 0.80, 0.05]
女人 = [0.30, 0.90, 0.80, 0.05]
女王 = [0.95, 0.95, 0.85, 0.10]

1
2
3
4

算"国王 - 男人 + 女人"：

[0.95, 0.20, 0.85, 0.10]
- [0.30, 0.10, 0.80, 0.05]
= [0.65, 0.10, 0.05, 0.05]

[0.65, 0.10, 0.05, 0.05]
+ [0.30, 0.90, 0.80, 0.05]
= [0.95, 1.00, 0.85, 0.10]

1
2
3
4
5
6
7

把结果 [0.95, 1.00, 0.85, 0.10] 跟"女王" [0.95, 0.95, 0.85, 0.10] 比一比——几乎完全一致！

💡 这就是 Word2Vec 当年震惊学术界的原因：语义居然真的能像三维空间里的几何向量一样进行加减运算。

# B.9 真实场景中 Embedding 怎么用？

你完全可以自己上手：

1. OpenAI 提供 text-embedding-3-small 模型
   输入文本 → 输出 1536 维向量

2. 调用一次大约 1024 token 的成本：≈ $0.00002

3. 把你的所有文档都跑一遍 → 存进向量数据库（Pinecone/Milvus/Chroma）

4. 用户提问时:
   - 把问题转成 1536 维向量
   - 在数据库里找余弦相似度最高的 Top-5 段落
   - 把这 5 段 + 用户问题打包发给 GPT-4
   - GPT-4 基于这些"开卷资料"回答

1
2
3
4
5
6
7
8
9
10
11
12

这就是企业 AI 助手的标准做法。看完这一节，你已经知道它的底层在算什么了。

# C. 一句话总结这一层

Token 是 AI 的"字"，Embedding 是 AI 的"语义坐标"。

算 Token = 算钱；算 Embedding 距离 = 算意思。

这两件事是当代 AI 工程最基础、最值钱的两个计算。

# 五：AI 怎么"看懂"一整句话？（注意力机制）

# 5.1 一个问题：词序很重要

"小狗咬小孩"和"小孩咬小狗"用了一模一样的词，但意思完全相反。

光有 Embedding 不够，模型必须知道词和词之间的关系。

# 5.2 注意力机制：让每个词"环顾四周"

2017 年 Google 提出了 Transformer 架构，里面最核心的发明叫 Self-Attention（自注意力）。

它的思路用大白话说就是：

每个词在被理解的时候，都要回头看一下句子里的其他词，给每个词分配一个"关注度"。

比如这句话："那只猫因为太累了，所以它睡着了。"

模型在处理"它"这个词时，会做什么？

graph TB
    A["它"] -->|关注度 0.85| B["那只猫"]
    A -->|关注度 0.05| C["因为"]
    A -->|关注度 0.03| D["太累了"]
    A -->|关注度 0.02| E["所以"]
    A -->|关注度 0.05| F["睡着了"]

1
2
3
4
5
6

"它"这个词，把 85% 的注意力都放到了"那只猫"上——所以模型知道："它"指的是"那只猫"。

这就是 AI 能"看懂"语言指代、上下文、长距离关系的原因。

📖 幕后故事：注意力机制是怎么"反客为主"的

注意力机制最早不是为了取代 RNN 而生的，它本来只是 RNN 的一个辅助插件——2014 年 Bengio 团队为了让翻译模型记住更长的句子而发明。

当时大家把它当成"调味料"：往 RNN 里加一勺，效果更好。

直到 2017 年那 8 个 Google 研究员做了一件事——他们想："既然注意力这么好用，那干脆把 RNN 全删了，只留注意力呢？"

当时连他们自己都没把握。结果一上线，所有人都傻眼了：不仅效果好，速度还快了几十倍。

这就是 AI 史上著名的"调味料反客为主"事件。很多颠覆性的创新，都不是设计出来的，是"试出来的"。

# 5.3 整张图：一段话进入模型后发生了什么

把前面学的串起来，看一段文本是怎么流过 AI 大脑的：

graph TB
    A["输入文本: '我是一个码农'"] --> B["Tokenizer 切分"]
    B --> C["Token: 我 / 是 / 一 / 个 / 码农"]
    C --> D["查表:Token → 编号"]
    D --> E["编号: 15634 / 27891 / 48127 / 51209 / 63724"]
    E --> F["查 Embedding 表"]
    F --> G["每个 Token 变成 一个高维向量"]
    G --> H["进入 Transformer"]
    H --> I["Self-Attention 每个词环顾四周"]
    I --> J[经过几十层处理]
    J --> K["输出: 下一个 Token 的概率分布"]
    K --> L["采样选一个 Token"]
    L --> M["把新 Token 拼回去, 重复整个过程"]

1
2
3
4
5
6
7
8
9
10
11
12
13

💡 这就是 GPT 系列、Claude、Gemini、文心、通义、DeepSeek……所有现代大模型的统一架构。

# 六、模型是怎么"学会"这一切的？（训练）

到现在为止，我们讲的都是模型已经训练好之后怎么用。那它最开始是怎么学会的？

现代大模型的训练分三步，缺一不可。

# 6.1 第一步：预训练（Pre-training）—— 让 AI "读完整个互联网"

graph LR
    A[海量文本] --> B[做完形填空]
    B --> C[模型猜错了]
    C --> D[调整模型参数]
    D --> B
    B --> E[模型猜对了]
    E --> F[巩固参数]
    F --> B

1
2
3
4
5
6
7
8

目标：学会语言规律和世界知识
数据：几十 TB 的网页、书籍、代码
方法：不停做完形填空
代价：需要几千张顶级 GPU、训练几个月、烧掉几千万到几亿美元

这一步完成后，模型已经知识渊博，但不太会聊天——你问一句它可能给你接龙一段维基百科。

# 6.2 第二步：监督微调（SFT）—— 教 AI "怎么好好说话"

graph LR
    A[人工写的高质量对话] --> B[喂给模型]
    B --> C["模型学会: 遇到问题该这样回答"]

1
2
3

目标：让模型学会"对话格式"和"指令遵循"
数据：几万到几十万条人工精心编写的"问-答"对
方法：让模型模仿优秀回答

这一步之后，模型会聊天了，但还会出现各种不太合适的回答——比如说脏话、给危险建议、答非所问。

# 6.3 第三步：RLHF —— 让 AI "懂人话、合人意"

RLHF = 基于人类反馈的强化学习。这是 ChatGPT 真正惊艳世人的秘密武器。

graph TB
    A["同一个问题 让模型生成多个回答"] --> B["人类标注员排序 这个比那个好"]
    B --> C["训练一个'评分模型' 学会模仿人类喜好"]
    C --> D["让主模型生成回答 评分模型打分"]
    D --> E["根据分数 用强化学习调整主模型"]
    E --> D

1
2
3
4
5
6

目标：让模型回答符合人类偏好——有用、诚实、无害
数据：人类对模型回答的偏好排序
方法：强化学习

💡 这里有个有趣的副作用：RLHF 后的模型，会变得"过度自信"和"过度礼貌"。因为人类标注员喜欢自信、礼貌的回答。所以现代 AI 模型反而更容易装作自己什么都知道——这就是幻觉的一个根源。

📖 幕后故事：ChatGPT 那 5 万小时的"血汗"

RLHF 听起来很高大上，但它其实极其依赖人。

训练 ChatGPT 时，OpenAI 雇了大量的标注员（很多是肯尼亚的外包公司），给模型生成的成千上万条回答做排序："这条比那条好"、"这条有害"、"这条更礼貌"……

据 Time 杂志报道，肯尼亚的标注员时薪不到 2 美元，每天要看大量包含暴力、色情、仇恨内容的文本，心理负担巨大。这是 ChatGPT 光鲜表面下不为人知的一面。

这件事也说明了一个事实：AI 不是凭空"学聪明"的，它的每一点"懂事"，背后都是大量人类的劳动。下次你跟 ChatGPT 聊天觉得它特别贴心时，可以记住——那贴心是几千个人手把手"调教"出来的。

# 6.4 训练全景图

graph LR
    A[互联网海量文本] --> B["Step 1: 预训练"]
    B --> C["基础模型 知识渊博但不会聊天"]
    C --> D["Step 2: SFT 微调"]
    D --> E["对话模型 会聊天但偶尔失控"]
    E --> F["Step 3: RLHF"]
    F --> G["最终模型 有用 / 诚实 / 无害"]
    G --> H[发布给用户]

1
2
3
4
5
6
7
8

# 七、为什么"大"模型才有用？（涌现）

# 7.1 一个奇怪的现象

研究人员发现一个反直觉的现象：

模型小的时候，做某项任务的能力 = 0
模型变大一点，能力还是 = 0
模型再变大，能力依然 = 0
……
模型大到某个临界点，能力突然跳到 80%！

这个现象叫 涌现（Emergence）。

graph LR
    A["1亿参数 不会做数学"] --> B["10亿参数 还是不会"]
    B --> C["100亿参数 仍然不会"]
    C --> D["1000亿参数 突然会了!"]

1
2
3
4

# 7.2 一个生活化的类比

想象小孩学语言：

6 个月：什么都不会说
12 个月：会说"妈妈、爸爸"
18 个月：还是只会单词
2 岁：突然开始说完整句子

不是大脑容量缓慢提升，是积累到了某个量级，质变才发生。

大模型也是这个道理。

# 7.3 哪些能力是"涌现"出来的？

逻辑推理：能做多步数学题
代码能力：能写出能跑的程序
跨语言翻译：没专门训练过中翻法，也能做
角色扮演：能稳定扮演一个角色
指令遵循：能按你说的格式输出

💡 这就是为什么"小模型"和"大模型"不仅仅是程度差异，而是能力级别的差异。这也是为什么各家公司在拼命堆参数。

📖 现实拷问：为什么 Qwen 0.6B 比 Qwen 9B 差那么多？

你下载过 Ollama 或者 LM Studio 的话，会看到同一个家族（比如 Qwen、Llama、DeepSeek）有一堆不同尺寸：0.5B / 1.5B / 3B / 7B / 9B / 14B / 32B / 72B……

一个特别常见的疑问是：

"模型名字都一样、训练数据也都一样，凭什么 9B 就能聊天写代码，0.6B 连话都说不利索？参数量才差 10 几倍而已啊？"

这正是"涌现"在你电脑上的真实写照。我们一层层拆开看。

① 参数差 10 倍，"知识容量"差的可不止 10 倍

大模型本质是把世界知识"压缩"进参数里（前面讲过的有损压缩）。

0.6B 模型 = 约 0.6 GB（FP16）= 一本小百科全书的容量

9B 模型 = 约 18 GB = 大约一座小型图书馆

但知识不是线性增长的。0.6B 必须做艰难的取舍——哪些常识保留？哪些专业领域舍弃？最后保留下来的只是"语言的形状"和最高频的事实。问它"乔布斯哪年去世"它可能瞎编；问它"红楼梦谁写的"它也未必能稳。

9B 大到能同时塞下：通用常识 + 多种语言 + 数学公式 + 编程语法 + 文学风格……一个网络里塞十几个"子专家"，而 0.6B 只能塞一个糊涂的"通才"。

② 涌现能力的"门槛"，0.6B 根本没跨过去

大模型有些能力是"全有或全无"的，存在一个最低参数门槛：

能力大约门槛 0.6B 表现 9B 表现

流畅说人话 ~0.3B 勉强能很自然

跟从复杂指令 ~1B 经常跑偏大体能跟

简单数学（两位数运算） ~3B 几乎不行能做对一部分

多步推理 / Chain-of-Thought ~7B 完全做不到开始有

写能跑的代码 ~7B 极不稳定简单题能写

角色扮演 / 长对话保持人设 ~7B 几轮就乱稳定

这就像盖楼——没盖到 5 层之前，你装电梯没意义。0.6B 的容量根本"撑不起"推理这种复杂能力。

③ 一个更深的原因：模型不仅在记知识，还在记"思考的回路"

大模型内部有研究者发现了所谓的"电路（circuit）"——多个神经元协同实现某种功能，比如：

指代消解电路：理解"它"指代前面哪个名词

算术电路：执行多步加减

括号匹配电路：写代码时配对 { } ( )

这些电路通常需要几亿到几十亿参数才能稳定形成。0.6B 模型连这些"思考的回路"都没长出来，所以它的失败不是"知识不够"，而是根本没装上这些功能模块。

④ 实战对比：一个真实的题目，三个尺寸的回答

题目："小明有 12 个苹果，分给 3 个朋友，每人一样多。如果再给每个朋友 2 个，每人现在有多少？"

Qwen 0.6B 回答（典型）："小明给每个朋友 4 个苹果。" ❌（没算第二步）

Qwen 3B 回答（典型）："每人分到 4 个，再加 2 个，所以是 6 个。" ✅（步骤简单，但能对）

Qwen 9B 回答（典型）："第一步：12÷3 = 4。每人 4 个。第二步：再加 2 个，每人 4+2 = 6 个。最终答案：每人 6 个苹果。" ✅✅（步骤清晰、过程可验证）

Qwen 32B 回答：可能还会主动给一个表格、举一反三、提示你"如果数字变成 15 怎么算"。

注意——不只是"对/错"的差别，是"会不会思考"的差别。

⑤ 那 0.6B 还有用吗？有！但要用对地方

别看 0.6B"傻"，它有致命的优势：

快：在普通手机/树莓派上都能跑，延迟几十毫秒

小：500MB 以下，能塞进任何设备

便宜：API 价格可以低到 9B 的 1/20

所以它的舞台是：简单分类、智能路由、标题生成、关键词抽取、敏感词过滤——这些任务你用 9B 是浪费，用 0.6B 又快又便宜。

业界一个很火的设计模式叫 "模型路由器"：
用户问题 → 0.6B 模型先判断"这是个简单问题还是复杂问题？"
          ↓
     简单 → 给 3B 模型回答（便宜）
     复杂 → 给 70B 模型回答（贵但准）
1
2
3
4
这样既能保证质量，又能把成本压低 80%。

⑥ 一句话总结

小模型不是"差版本"，是"完全不同的物种"。 0.6B 是麻雀（敏捷、便宜、做小事），9B 是中型鸟（能飞远），70B 是猛禽（能抓大猎物）。不存在"以小搏大"，只存在"用对地方"。

选模型的核心心法：先问任务复杂度，再选参数尺寸。不要一上来就用最大的，也别奢望小模型干大事。

能力	大约门槛	0.6B 表现	9B 表现
流畅说人话	~0.3B	勉强能	很自然
跟从复杂指令	~1B	经常跑偏	大体能跟
简单数学（两位数运算）	~3B	几乎不行	能做对一部分
多步推理 / Chain-of-Thought	~7B	完全做不到	开始有
写能跑的代码	~7B	极不稳定	简单题能写
角色扮演 / 长对话保持人设	~7B	几轮就乱	稳定

📖 幕后故事：GPT-3 是怎么让全世界改变看法的

2020 年 5 月，OpenAI 发布 GPT-3。当时业内的反应是分裂的：

学术界：嗤之以鼻。"不就是个更大的 GPT-2 吗？没有任何架构创新，靠堆参数算什么科研？"

工程师圈：开始疯传一些 demo。

然后真正改变历史的事件发生了——一位推特用户 Sharif Shameem 用 GPT-3 做了个 demo：他对着 GPT-3 用自然语言描述："我要一个有红色按钮的页面，按钮下面有一段欢迎文字。" GPT-3 直接生成了能跑的 HTML 代码。

这条推特一夜爆红。所有人才意识到：这玩意儿不是"更好的语言模型"，它是个"通用任务求解器"。

没人教过 GPT-3 怎么写 HTML，没人专门训练过它"理解 UI 描述"。它就是在预训练里自己学会了。

这就是涌现最让人震撼的地方——模型在某个尺寸之后，开始"举一反三"。这种能力不是任何研究员设计出来的，它是"长出来"的。这件事也彻底改变了整个 AI 行业的研究方向：从"我设计什么算法"变成了"我怎么把模型做得更大"。

# 八、为什么 AI 会"胡说八道"？（幻觉的本质）

终于到了大家最关心的问题。

# 8.1 幻觉不是 Bug，是机制决定的

回到我们最开始的核心比喻：AI 是文字接龙选手。

它的工作原理是"必须接出下一个字"。它没有：

❌ "我不知道"的开关
❌ 一个事实数据库可以查
❌ 区分"真"和"假"的能力

它只有一个概率分布。

graph TB
    A["你问:'某某公司在上海的地址?'"] --> B{模型怎么想}
    B --> C["训练数据里这类问题 通常会跟一个具体地址"]
    C --> D[那我也接一个像样的地址]
    D --> E["输出: 上海市浦东新区... 编出一个完全不存在的地址"]

1
2
3
4
5

它不是"故意撒谎"——它根本不知道什么叫"撒谎"。

它只是在做它最擅长的事：让接出来的话看起来通顺、合理、像那么回事。

# 8.2 幻觉的数学必然性

2024 年 OpenAI 自己发了一篇论文 Why Language Models Hallucinate，证明了一件事：

在标准的训练和评测体系下，"猜一个"比"承认不知道"得分更高。所以模型会被训练成"宁可瞎编也不空着"。

这意味着幻觉不能靠堆参数消除，必须靠外部系统解决。

# 8.3 工程上怎么对付幻觉？

业界的标准做法叫 RAG（检索增强生成）：

graph LR
    A[用户提问] --> B["先去你的知识库 检索相关资料"]
    B --> C["把资料塞给 AI 说: 基于这些资料回答"]
    C --> D["AI 不再凭空编造 而是基于资料组织答案"]

1
2
3
4

打个比方：

没 RAG = 让学生闭卷考试 → 容易瞎编
用 RAG = 让学生开卷考试 → 答案有根有据

graph TB
    A["公司内部文档 产品手册 知识库"] --> B[切成小块]
    B --> C["计算每块的 Embedding 存进向量数据库"]
    D[用户提问] --> E["计算问题的 Embedding"]
    E --> F["从向量数据库 找最相似的几块"]
    C --> F
    F --> G["把这几块 + 用户问题 一起发给大模型"]
    G --> H[模型基于资料生成答案]

1
2
3
4
5
6
7
8

💡 这就是为什么"企业内部 AI 助手"基本都是 RAG 架构：你不能让通用 AI 知道你公司内部的事，但你可以"开卷"让它现场查。

# 九、AI 不只是聊天——Agent 时代来了

# 9.1 从"会说"到"会做"

到目前为止，我们讲的 AI 都只能"输出文字"。但 2024 年开始，业界进入了 Agent（智能体） 时代。

什么是 Agent？一句话：

会用工具、能完成任务的 AI。

graph TB
    A["传统 AI: 只会输出文字"]
    B["Agent: 会用工具、能采取行动"]

    A --> A1[你问天气]
    A1 --> A2[它瞎编一个天气]

    B --> B1[你问天气]
    B1 --> B2["它调用天气 API"]
    B2 --> B3[拿到真实数据]
    B3 --> B4[告诉你准确天气]

1
2
3
4
5
6
7
8
9
10
11

# 9.2 Agent 的核心组件

graph TB
    A[用户任务] --> B["Agent 大脑 大模型"]
    B --> C{需要做什么?}
    C --> D[调用搜索引擎]
    C --> E[执行代码]
    C --> F[读取数据库]
    C --> G[发送邮件]
    C --> H[操作浏览器]
    D --> I[拿到结果]
    E --> I
    F --> I
    G --> I
    H --> I
    I --> J{任务完成?}
    J -->|没有| C
    J -->|完成| K[输出最终结果]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

简单说，Agent = 大模型 + 工具集 + 一个循环：

看任务
想想要不要用工具，用哪个
用工具，拿到结果
想想下一步
循环，直到任务完成

# 9.3 真实世界的 Agent 例子

Cursor / Claude Code / WaLiCode：你说"帮我把这个功能改成异步的"，它自己读代码、改代码、跑测试。
Devin：号称"AI 软件工程师"，能从一个 GitHub Issue 开始，自己分析、修代码、提 PR。
企业客服 Agent：用户问问题，它查订单、查物流、查退款政策、给出处理方案。

# 9.4 Agent 的现状：很美好，但很难

实话说，Agent 目前还远没到"完全替代人"的地步。原因：

graph LR
    A["第1步: 90% 正确"] --> B["第2步: 90% 正确"]
    B --> C["第3步: 90% 正确"]
    C --> D["..."]
    D --> E["第10步: 整体正确率 = 0.9 的 10 次方 ≈ 35%"]

1
2
3
4
5

每一步都可能出错，错误会累积。所以现在所有靠谱的 Agent 都不是"完全自主"，而是：

把工作流程画成一张图，AI 在图上"沿着轨道走"，关键节点由 AI 决策，但整体框架由人定。

这叫 Workflow + LLM，是目前最务实的工业级 Agent 模式。

📖 幕后故事：Devin 的"过山车"与 DeepSeek-R1 的"低成本奇迹"

Devin 的故事：2024 年 3 月，Cognition Labs 发布了 Devin，宣称是"世界上第一个 AI 软件工程师"。演示视频里它从看 Issue、读代码、写代码、跑测试、提 PR 一气呵成，整个硅谷都疯了。公司估值一夜从 0 飙到 20 亿美元。

但几个月后，AI 评测博主 Internet of Bugs 发了一条扒皮视频，逐帧分析 Devin 的演示——发现里面有大量精心剪辑、跳过失败、反复重试。真实使用率远低于演示。

这给整个行业泼了一盆冷水，让大家清醒过来：Agent 离"完全自主"还很远，目前最务实的方向是"AI 加速人，而不是替代人"。Cursor、Claude Code 这种"AI 提议、人确认"的模式，反而活得最滋润。

DeepSeek-R1 的故事：2025 年 1 月 20 日，杭州一家叫 DeepSeek 的小公司发布了 R1 模型——推理能力对标 OpenAI 当时最贵的 o1，而背后的基础模型 V3 训练成本约 557 万美元（OpenAI 同级模型据估算花了上亿美元）。更狠的是：完全开源、技术报告全公开。

这一事件直接引发了全球资本市场地震：2025 年 1 月 27 日，NVIDIA 股价单日暴跌约 17%、市值蒸发近 5890 亿美元，刷新美股单日单股市值蒸发纪录。原因很简单——如果顶级 AI 能用 1/20 的成本做出来，那"无脑买卡"的逻辑就动摇了。

R1 还有一个更重要的技术贡献：它证明了仅靠强化学习（R1-Zero 阶段），不经过 SFT，模型就能自发学会推理、反思、自我纠错。这是大模型领域近三年最重要的发现之一。

这两个故事合在一起说明一件事——AI 行业现在的速度，是按"周"在变化的。今天的明星，下个月可能就被反超；今天看似遥不可及的能力，明年可能开源到你能在自己电脑上跑。保持学习、不要押宝任何单一技术，是这个时代的生存之道。

# 十、未来三年，AI 会变成什么样？

最后给你看一张全局图，整个 AI 工业栈大概长这样：

graph TB
    A["基础大模型层 GPT-4 / Claude / Gemini / DeepSeek / Qwen"]
    A --> B["能力增强层 RAG / Function Calling / 长上下文"]
    B --> C["Agent 编排层 LangChain / LangGraph / AutoGen"]
    C --> D["应用层 Cursor / Devin / 各种 AI 助手"]
    D --> E[用户]

1
2
3
4
5
6

未来三年值得关注的几条线：

推理时计算（Test-Time Compute）：让模型"想得更久 = 答得更准"。OpenAI o1/o3、DeepSeek-R1 已经验证了这条路。
多模态：从只懂文字，到能看图、听音、操作屏幕、控制机器人。
长期记忆：让 AI 记住你是谁、跟你聊过什么，跨会话保留。
AI 原生应用：不是给老软件加 AI，而是从头设计的 AI-first 产品。（可能的最终形态）

# 十一、用今天学的理论，看懂你昨天遇到的 AI

讲了这么多概念，你可能想问：这些理论跟我每天用 AI 的体验有啥关系？

关系大了。我们挑 6 个几乎人人都遇到过的真实场景，用前面学的理论给你"翻译"一下——你会发现，所有看起来奇怪的 AI 行为，背后都有原因。

# 场景 1：每次问同一个问题，AI 给的答案都不一样

"我昨天问它写朋友圈，今天再问，文案完全不一样了。它不记得我吗？"

用理论解释：

它真的不记得——除非你在同一个对话窗口。每次新对话，AI 是"白纸一张"。
即使同一对话，它的输出也带采样随机性（Temperature 参数）。同样的"下一个 token 概率分布"，每次采样都可能采到不同的词。
这是 第一层「文字接龙」+ Temperature 机制 在起作用。

怎么用：

想要稳定结果（写代码、抽取数据）→ 让对方降低 temperature 或明确说"请给确定的答案"
想要创意发散（起名、文案）→ 让它多生成几个版本

# 场景 2：让它写一篇 5000 字的长文，越往后越"水"、越跑题

"前 1000 字写得挺好，后面就开始重复、说废话、甚至偏离主题。"

用理论解释：

这就是 第三层提到的注意力机制和 第六层提到的"Lost in the Middle" 的工程后果。
AI 写到后面时，前面已经写过的内容塞在它的"上下文"里。上下文越长，每个 token 分到的"注意力预算"就越少——它就开始"看不清"自己之前写了什么。
加上"接龙"特性，前面如果出现一个偏题的句子，后面会沿着这条偏题路径越走越远。

怎么用：

别让它一次写 5000 字。拆成"先写大纲 → 逐节展开"。
长文写完后让它重新校对一遍主题一致性。

# 场景 3：明明很简单的算术题，AI 都能算错

"我让它算 23 × 47，它给了我一个看起来很对但实际错了的数。"

用理论解释：

回到 第一层：AI 是接龙，不是计算器。它生成 23×47 的结果时，是在"猜下一个数字最可能是什么"，不是真的在做乘法。
第六层「幻觉」 也在这里发挥：它不会承认"我算不来"，会硬着头皮编一个看起来合理的数字。

怎么用：

让它列出计算步骤（"先算个位、再算十位"），借助"Chain-of-Thought"机制，准确率会显著提升。
涉及钱、统计、严肃数据 → 永远用计算器/代码再核对一遍。
高级用法：让它"用 Python 算"，让 AI 调用工具（第七层 Function Calling）。

# 场景 4：问"现在比特币多少钱"，它说一个 2 年前的数字

"我问它今天的天气、最新新闻、股价，它给的全是过时的。"

用理论解释：

第四层「训练」 告诉我们：模型的知识来自训练数据，训练数据有截止日期。
一旦训练完成，模型就"冻结"了——它不会自己上网。
它给的"实时"数字，本质上是幻觉——基于过去数据猜了一个"合理的样子"。

怎么用：

实时信息 → 用带"联网搜索"功能的模式（ChatGPT 的搜索按钮、Perplexity、豆包联网模式）。
这背后就是 第七层 Agent 的工具调用 —— AI 自己去搜索引擎查，再回答你。

# 场景 5：上传一份 100 页 PDF，问里面的细节它答错

"我把公司年报扔给它，问'第三季度净利润',它给的数字跟原文对不上。"

用理论解释：

这是经典的 "长上下文塌陷"（前面提过）。100 页 PDF 大约 5-10 万 token，中段信息最容易被忽略。
AI 在长文档里"指认"具体数字时，注意力可能根本没真正聚焦到原文那一行。

怎么用：

不要扔整本。先让它生成目录或摘要 → 再针对你关心的章节单独提问。
或者用支持 RAG（第六层「开卷考试」） 的工具：把 PDF 切片入库，提问时只检索相关片段给 AI。
关键数字 → 永远要求它"原文引用"——它就不容易瞎编。

# 场景 6：同一个 Qwen 模型，0.6B 答非所问，9B 又快又准

"都叫 Qwen，参数差 10 几倍，结果天差地别。"

用理论解释：

这就是 第五层「涌现」 的现实写照。
推理、跟从复杂指令、写代码——这些是有门槛的能力，0.6B 根本没跨过去。
不是"差一点"，是**"完全没装上这个功能模块"**。

怎么用：

简单任务（分类、关键词、标题）→ 用 0.6B / 1.5B，便宜又快。
严肃任务（写代码、写报告）→ 至少 7B 起步。
高级用法：用模型路由器（小模型先判断、再决定派给谁），成本可降 80%。

# 一张总结表：一眼看懂"理论 → 现象 → 对策"

你遇到的现象	背后理论	对策
答案每次都不一样	文字接龙 + Temperature	降温 / 明确要求
长文越写越水	注意力被稀释 / Lost in the Middle	分段写、写完再校
算术错得离谱	接龙 ≠ 计算 + 幻觉	列步骤 / 用工具
实时信息过时	训练数据有截止日期	开联网模式
长 PDF 答错细节	长上下文塌陷	切片提问 / 要求原文引用
小模型答非所问	涌现门槛 / 容量不够	选对参数尺寸

💡 学习 AI 最好的方式，不是背概念，是在你下次踩坑时——能立刻说出"这是哪个机制在作怪"。

当你能用"上下文塌陷"解释一次长文档失误，用"涌现"解释一次模型升级带来的飞跃——你就真正"懂 AI 了"。

# 终章：把整个故事串起来

最后用一张图，把这篇文章讲的所有概念串成一个完整的故事：

graph TB
    subgraph 1.数据准备
        A1[整个互联网文本]
    end

    subgraph 2.基础表示
        B1["Tokenizer 切分"]
        B2["Embedding 把词变坐标"]
    end

    subgraph 3.架构核心
        C1["Self-Attention 每个词看其他词"]
        C2["Transformer 几十层堆叠"]
    end

    subgraph 4.训练
        D1["预训练: 完形填空"]
        D2["SFT: 学会聊天"]
        D3["RLHF: 符合人类偏好"]
    end

    subgraph 5.涌现的能力
        E1[语言]
        E2[推理]
        E3[代码]
        E4[翻译]
    end

    subgraph 6.局限
        F1[幻觉]
        F2[知识过时]
        F3[数学差]
    end

    subgraph 7.工程对策
        G1["RAG 开卷考试"]
        G2["Function Calling 用工具"]
        G3["Agent 自主完成任务"]
    end

    A1 --> B1 --> B2 --> C1 --> C2 --> D1 --> D2 --> D3 --> E1
    D3 --> E2
    D3 --> E3
    D3 --> E4
    E1 --> F1
    E1 --> F2
    E1 --> F3
    F1 --> G1
    F2 --> G1
    F3 --> G2
    G1 --> G3
    G2 --> G3

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52

读完这篇文章，根据你的理解程度，可以分成三档：

档位	你应该能说出
入门	AI 是文字接龙，会胡说，得自己核对
进阶	AI 把词变成坐标，靠注意力理解上下文，靠预训练+SFT+RLHF 三步学习
熟手	我知道大模型 + RAG + Agent + MCP（后续分享） + Skills（后续分享）怎么组合，能跟工程师讨论方案

如果你看完只到了"入门"档，也没关系——把这篇文章收藏，过一周再读一遍，你会发现很多之前没注意的细节变清晰了。

理解 AI 是这个时代的复利能力。早一点搞明白，未来几年的红利就早一点吃到。

# 附：本文涉及的核心概念速查表

概念	一句话解释
Token	AI 眼里的最小单位，像字也像词
Embedding	把词变成多维空间里的坐标，坐标近 = 意思近
Self-Attention	每个词去"环顾"句子里的其他词，理解关系
Transformer	把 Attention 堆叠几十层形成的大脑结构
预训练	喂海量文本做完形填空，让模型学到语言和知识
SFT	用高质量对话样本，教模型怎么聊天
RLHF	用人类偏好反馈，让模型变得更"懂人"
涌现	模型大到某个临界点，新能力突然出现
幻觉	AI 编造看似合理但实际错误的内容
RAG	检索增强生成 = 让 AI 开卷考试
Function Calling	让 AI 会调用外部工具
Agent	会用工具、能完成任务的 AI

把这张表存下来，下次看到这些词，你就不会再发怵了。愿你不仅会用 AI，也理解 AI；不仅不被它取代，还能驾驭它。 🚀

← AI Agent 八股文小册 Spring AI →

常用搜索	百度 Google Bing Github 搜代码
技术社区	CDSN 博客园 OSChina 思否掘金 Linux公社 IBM 开发者 StackOverflow
PDF 下载	《Java 面经手册》《重学Java设计模式》《手撸 Spring》《字节码编程》
面试求职	简历优化简历筛选大厂要求薪资待遇北漂生活
Java相关	数据结构和算法并发和锁多线程 Java8 特性 JVM 虚拟机
Spring	手写 Spring SpringCloud 入门 Mybatis 源码分析手写 Mybatis Quartz 源码分析
面向对象	设计模式 DDD 落地低代码字节码插桩画架构图系统监控中台研发规范
中间件&插件	Maven中央仓库数据库路由设计 IDEA-Plugin
Netty 4.x	基础入门中级拓展高级应用 RPC 实现 IM 仿微信
字节码编程	ASM Javassist Byte-Buddy JavaAgent ASM-DOC JVM 指令码
专栏小册	《Netty+JavaFx实战：仿桌面版微信聊天》《SpringBoot 中间件设计和开发》《Lottery 抽奖系统 - 基于领域驱动设计的四层架构实践》
知识星球	码农会锁实战项目