# 涌现——为什么"大"模型才有用？

作者：小傅哥
博客：https://bugstack.cn (opens new window)

沉淀、分享、成长，让自己和他人都能有所收获！😄

大家好，我是技术UP主小傅哥。

一个奇怪的现象：模型小的时候某项能力 = 0，再大一点还是 = 0，再大还是 = 0……大到某个临界点，能力突然跳到 80%！ 这个现象叫 涌现（Emergence）。这就是为什么各家公司在拼命堆参数。

# 一、一个奇怪的现象

研究人员发现一个反直觉的现象：

模型小的时候，做某项任务的能力 = 0
模型变大一点，能力还是 = 0
模型再变大，能力依然 = 0
……
模型大到某个临界点，能力突然跳到 80%！

graph LR
    A["1亿参数 不会做数学"] --> B["10亿参数 还是不会"]
    B --> C["100亿参数 仍然不会"]
    C --> D["1000亿参数 突然会了!"]

1
2
3
4

# 二、一个生活化的类比

想象小孩学语言：

6 个月：什么都不会说
12 个月：会说"妈妈、爸爸"
18 个月：还是只会单词
2 岁：突然开始说完整句子

不是大脑容量缓慢提升，是积累到了某个量级，质变才发生。

大模型也是这个道理。

# 三、哪些能力是"涌现"出来的？

逻辑推理：能做多步数学题
代码能力：能写出能跑的程序
跨语言翻译：没专门训练过中翻法，也能做
角色扮演：能稳定扮演一个角色
指令遵循：能按你说的格式输出

💡 这就是为什么"小模型"和"大模型"不仅仅是程度差异，而是能力级别的差异。这也是为什么各家公司在拼命堆参数。

# 四、现实拷问：为什么 Qwen 0.6B 比 Qwen 9B 差那么多？

你下载过 Ollama 或者 LM Studio 的话，会看到同一个家族（比如 Qwen、Llama、DeepSeek）有一堆不同尺寸：0.5B / 1.5B / 3B / 7B / 9B / 14B / 32B / 72B……

一个特别常见的疑问是：

"模型名字都一样、训练数据也都一样，凭什么 9B 就能聊天写代码，0.6B 连话都说不利索？参数量才差 10 几倍而已啊？"

这正是"涌现"在你电脑上的真实写照。我们一层层拆开看。

① 参数差 10 倍，"知识容量"差的可不止 10 倍

大模型本质是把世界知识"压缩"进参数里（前面讲过的有损压缩）。

0.6B 模型 = 约 0.6 GB（FP16）= 一本小百科全书的容量
9B 模型 = 约 18 GB = 大约一座小型图书馆

但知识不是线性增长的。0.6B 必须做艰难的取舍——哪些常识保留？哪些专业领域舍弃？最后保留下来的只是"语言的形状"和最高频的事实。问它"乔布斯哪年去世"它可能瞎编；问它"红楼梦谁写的"它也未必能稳。

9B 大到能同时塞下：通用常识 + 多种语言 + 数学公式 + 编程语法 + 文学风格……一个网络里塞十几个"子专家"，而 0.6B 只能塞一个糊涂的"通才"。

② 涌现能力的"门槛"，0.6B 根本没跨过去

大模型有些能力是"全有或全无"的，存在一个最低参数门槛：

能力	大约门槛	0.6B 表现	9B 表现
流畅说人话	~0.3B	勉强能	很自然
跟从复杂指令	~1B	经常跑偏	大体能跟
简单数学（两位数运算）	~3B	几乎不行	能做对一部分
多步推理 / Chain-of-Thought	~7B	完全做不到	开始有
写能跑的代码	~7B	极不稳定	简单题能写
角色扮演 / 长对话保持人设	~7B	几轮就乱	稳定

这就像盖楼——没盖到 5 层之前，你装电梯没意义。0.6B 的容量根本"撑不起"推理这种复杂能力。

③ 一个更深的原因：模型不仅在记知识，还在记"思考的回路"

大模型内部有研究者发现了所谓的"电路（circuit）"——多个神经元协同实现某种功能，比如：

指代消解电路：理解"它"指代前面哪个名词
算术电路：执行多步加减
括号匹配电路：写代码时配对 { } ( )

这些电路通常需要几亿到几十亿参数才能稳定形成。0.6B 模型连这些"思考的回路"都没长出来，所以它的失败不是"知识不够"，而是根本没装上这些功能模块。

④ 实战对比：一个真实的题目，三个尺寸的回答

题目："小明有 12 个苹果，分给 3 个朋友，每人一样多。如果再给每个朋友 2 个，每人现在有多少？"

Qwen 0.6B 回答（典型）："小明给每个朋友 4 个苹果。" ❌（没算第二步）
Qwen 3B 回答（典型）："每人分到 4 个，再加 2 个，所以是 6 个。" ✅（步骤简单，但能对）
Qwen 9B 回答（典型）："第一步：12÷3 = 4。每人 4 个。第二步：再加 2 个，每人 4+2 = 6 个。最终答案：每人 6 个苹果。" ✅✅（步骤清晰、过程可验证）
Qwen 32B 回答：可能还会主动给一个表格、举一反三、提示你"如果数字变成 15 怎么算"。

注意——不只是"对/错"的差别，是"会不会思考"的差别。

⑤ 那 0.6B 还有用吗？有！但要用对地方

别看 0.6B"傻"，它有致命的优势：

快：在普通手机/树莓派上都能跑，延迟几十毫秒
小：500MB 以下，能塞进任何设备
便宜：API 价格可以低到 9B 的 1/20

所以它的舞台是：简单分类、智能路由、标题生成、关键词抽取、敏感词过滤——这些任务你用 9B 是浪费，用 0.6B 又快又便宜。

业界一个很火的设计模式叫 "模型路由器"：

用户问题 → 0.6B 模型先判断"这是个简单问题还是复杂问题？"
           ↓
      简单 → 给 3B 模型回答（便宜）
      复杂 → 给 70B 模型回答（贵但准）

1
2
3
4

这样既能保证质量，又能把成本压低 80%。

⑥ 一句话总结

小模型不是"差版本"，是"完全不同的物种"。 0.6B 是麻雀（敏捷、便宜、做小事），9B 是中型鸟（能飞远），70B 是猛禽（能抓大猎物）。不存在"以小搏大"，只存在"用对地方"。

选模型的核心心法：先问任务复杂度，再选参数尺寸。不要一上来就用最大的，也别奢望小模型干大事。

# 五、幕后故事：GPT-3 是怎么让全世界改变看法的

2020 年 5 月，OpenAI 发布 GPT-3。当时业内的反应是分裂的：

学术界：嗤之以鼻。"不就是个更大的 GPT-2 吗？没有任何架构创新，靠堆参数算什么科研？"
工程师圈：开始疯传一些 demo。

然后真正改变历史的事件发生了——一位推特用户 Sharif Shameem 用 GPT-3 做了个 demo：他对着 GPT-3 用自然语言描述："我要一个有红色按钮的页面，按钮下面有一段欢迎文字。" GPT-3 直接生成了能跑的 HTML 代码。

这条推特一夜爆红。所有人才意识到：这玩意儿不是"更好的语言模型"，它是个"通用任务求解器"。

没人教过 GPT-3 怎么写 HTML，没人专门训练过它"理解 UI 描述"。它就是在预训练里自己学会了。

这就是涌现最让人震撼的地方——模型在某个尺寸之后，开始"举一反三"。这种能力不是任何研究员设计出来的，它是"长出来"的。这件事也彻底改变了整个 AI 行业的研究方向：从"我设计什么算法"变成了"我怎么把模型做得更大"。

← 模型训练三步曲——预训练、微调、对齐幻觉——为什么 AI 会"胡说八道"？ →

常用搜索	百度 Google Bing Github 搜代码
技术社区	CDSN 博客园 OSChina 思否掘金 Linux公社 IBM 开发者 StackOverflow
PDF 下载	《Java 面经手册》《重学Java设计模式》《手撸 Spring》《字节码编程》
面试求职	简历优化简历筛选大厂要求薪资待遇北漂生活
Java相关	数据结构和算法并发和锁多线程 Java8 特性 JVM 虚拟机
Spring	手写 Spring SpringCloud 入门 Mybatis 源码分析手写 Mybatis Quartz 源码分析
面向对象	设计模式 DDD 落地低代码字节码插桩画架构图系统监控中台研发规范
中间件&插件	Maven中央仓库数据库路由设计 IDEA-Plugin
Netty 4.x	基础入门中级拓展高级应用 RPC 实现 IM 仿微信
字节码编程	ASM Javassist Byte-Buddy JavaAgent ASM-DOC JVM 指令码
专栏小册	《Netty+JavaFx实战：仿桌面版微信聊天》《SpringBoot 中间件设计和开发》《Lottery 抽奖系统 - 基于领域驱动设计的四层架构实践》
知识星球	码农会锁实战项目