# 模型训练三步曲——预训练、微调、对齐

作者：小傅哥
博客：https://bugstack.cn (opens new window)

沉淀、分享、成长，让自己和他人都能有所收获！😄

大家好，我是技术UP主小傅哥。

前面我们讲了 AI 的本质是文字接龙，讲了 Token 和 Embedding，讲了注意力机制。但这些都是模型已经训练好之后怎么用。那它最开始是怎么学会的？现代大模型的训练分三步，缺一不可。

# 一、第一步：预训练（Pre-training）—— 让 AI "读完整个互联网"

graph LR
    A[海量文本] --> B[做完形填空]
    B --> C[模型猜错了]
    C --> D[调整模型参数]
    D --> B
    B --> E[模型猜对了]
    E --> F[巩固参数]
    F --> B

1
2
3
4
5
6
7
8

目标：学会语言规律和世界知识
数据：几十 TB 的网页、书籍、代码
方法：不停做完形填空
代价：需要几千张顶级 GPU、训练几个月、烧掉几千万到几亿美元

这一步完成后，模型已经知识渊博，但不太会聊天——你问一句它可能给你接龙一段维基百科。

# 二、第二步：监督微调（SFT）—— 教 AI "怎么好好说话"

graph LR
    A[人工写的高质量对话] --> B[喂给模型]
    B --> C["模型学会: 遇到问题该这样回答"]

1
2
3

目标：让模型学会"对话格式"和"指令遵循"
数据：几万到几十万条人工精心编写的"问-答"对
方法：让模型模仿优秀回答

这一步之后，模型会聊天了，但还会出现各种不太合适的回答——比如说脏话、给危险建议、答非所问。

# 三、第三步：RLHF —— 让 AI "懂人话、合人意"

RLHF = 基于人类反馈的强化学习。这是 ChatGPT 真正惊艳世人的秘密武器。

graph TB
    A["同一个问题 让模型生成多个回答"] --> B["人类标注员排序 这个比那个好"]
    B --> C["训练一个'评分模型' 学会模仿人类喜好"]
    C --> D["让主模型生成回答 评分模型打分"]
    D --> E["根据分数 用强化学习调整主模型"]
    E --> D

1
2
3
4
5
6

目标：让模型回答符合人类偏好——有用、诚实、无害
数据：人类对模型回答的偏好排序
方法：强化学习

💡 这里有个有趣的副作用：RLHF 后的模型，会变得"过度自信"和"过度礼貌"。因为人类标注员喜欢自信、礼貌的回答。所以现代 AI 模型反而更容易装作自己什么都知道——这就是幻觉的一个根源。

📖 幕后故事：ChatGPT 那 5 万小时的"血汗"

RLHF 听起来很高大上，但它其实极其依赖人。

训练 ChatGPT 时，OpenAI 雇了大量的标注员（很多是肯尼亚的外包公司），给模型生成的成千上万条回答做排序："这条比那条好"、"这条有害"、"这条更礼貌"……

据 Time 杂志报道，肯尼亚的标注员时薪不到 2 美元，每天要看大量包含暴力、色情、仇恨内容的文本，心理负担巨大。这是 ChatGPT 光鲜表面下不为人知的一面。

这件事也说明了一个事实：AI 不是凭空"学聪明"的，它的每一点"懂事"，背后都是大量人类的劳动。下次你跟 ChatGPT 聊天觉得它特别贴心时，可以记住——那贴心是几千个人手把手"调教"出来的。

# 四、训练全景图

graph LR
    A[互联网海量文本] --> B["Step 1: 预训练"]
    B --> C["基础模型 知识渊博但不会聊天"]
    C --> D["Step 2: SFT 微调"]
    D --> E["对话模型 会聊天但偶尔失控"]
    E --> F["Step 3: RLHF"]
    F --> G["最终模型 有用 / 诚实 / 无害"]
    G --> H[发布给用户]

1
2
3
4
5
6
7
8

# 五、训练三步曲能解释的 AI 行为

# 为什么 AI 的知识有截止日期？

因为预训练数据是有时间范围的。模型一旦训练完成就"冻结"了，不会自己上网更新。所以问它今天的新闻、股价，它给的可能是过时的信息——甚至可能编造一个"看起来合理"的答案。

# 为什么 AI 有时候过度礼貌？

RLHF 的训练过程让模型学会了"人类喜欢礼貌的回答"。所以它会过度道歉、过度感谢，甚至在你不需要客气的时候也客客气气的。

# 为什么 AI 会"过度自信"？

同样是因为 RLHF——人类标注员倾向于给"自信的"回答打高分，即使答案是错的。所以模型学会了"用确定的语气说话"，而不是说"我不确定"。

← 注意力机制——AI 怎么"看懂"一整句话涌现——为什么"大"模型才有用？ →

常用搜索	百度 Google Bing Github 搜代码
技术社区	CDSN 博客园 OSChina 思否掘金 Linux公社 IBM 开发者 StackOverflow
PDF 下载	《Java 面经手册》《重学Java设计模式》《手撸 Spring》《字节码编程》
面试求职	简历优化简历筛选大厂要求薪资待遇北漂生活
Java相关	数据结构和算法并发和锁多线程 Java8 特性 JVM 虚拟机
Spring	手写 Spring SpringCloud 入门 Mybatis 源码分析手写 Mybatis Quartz 源码分析
面向对象	设计模式 DDD 落地低代码字节码插桩画架构图系统监控中台研发规范
中间件&插件	Maven中央仓库数据库路由设计 IDEA-Plugin
Netty 4.x	基础入门中级拓展高级应用 RPC 实现 IM 仿微信
字节码编程	ASM Javassist Byte-Buddy JavaAgent ASM-DOC JVM 指令码
专栏小册	《Netty+JavaFx实战：仿桌面版微信聊天》《SpringBoot 中间件设计和开发》《Lottery 抽奖系统 - 基于领域驱动设计的四层架构实践》
知识星球	码农会锁实战项目