# 涌现——为什么"大"模型才有用?
作者:小傅哥
博客:https://bugstack.cn (opens new window)
沉淀、分享、成长,让自己和他人都能有所收获!😄
大家好,我是技术UP主小傅哥。
一个奇怪的现象:模型小的时候某项能力 = 0,再大一点还是 = 0,再大还是 = 0……大到某个临界点,能力突然跳到 80%! 这个现象叫 涌现(Emergence)。这就是为什么各家公司在拼命堆参数。
# 一、一个奇怪的现象
研究人员发现一个反直觉的现象:
- 模型小的时候,做某项任务的能力 = 0
- 模型变大一点,能力还是 = 0
- 模型再变大,能力依然 = 0
- ……
- 模型大到某个临界点,能力突然跳到 80%!
graph LR
A["1亿参数 不会做数学"] --> B["10亿参数 还是不会"]
B --> C["100亿参数 仍然不会"]
C --> D["1000亿参数 突然会了!"]
2
3
4
# 二、一个生活化的类比
想象小孩学语言:
- 6 个月:什么都不会说
- 12 个月:会说"妈妈、爸爸"
- 18 个月:还是只会单词
- 2 岁:突然开始说完整句子
不是大脑容量缓慢提升,是积累到了某个量级,质变才发生。
大模型也是这个道理。
# 三、哪些能力是"涌现"出来的?
- 逻辑推理:能做多步数学题
- 代码能力:能写出能跑的程序
- 跨语言翻译:没专门训练过中翻法,也能做
- 角色扮演:能稳定扮演一个角色
- 指令遵循:能按你说的格式输出
💡 这就是为什么"小模型"和"大模型"不仅仅是程度差异,而是能力级别的差异。这也是为什么各家公司在拼命堆参数。
# 四、现实拷问:为什么 Qwen 0.6B 比 Qwen 9B 差那么多?
你下载过 Ollama 或者 LM Studio 的话,会看到同一个家族(比如 Qwen、Llama、DeepSeek)有一堆不同尺寸:0.5B / 1.5B / 3B / 7B / 9B / 14B / 32B / 72B……
一个特别常见的疑问是:
"模型名字都一样、训练数据也都一样,凭什么 9B 就能聊天写代码,0.6B 连话都说不利索?参数量才差 10 几倍而已啊?"
这正是"涌现"在你电脑上的真实写照。我们一层层拆开看。
① 参数差 10 倍,"知识容量"差的可不止 10 倍
大模型本质是把世界知识"压缩"进参数里(前面讲过的有损压缩)。
- 0.6B 模型 = 约 0.6 GB(FP16)= 一本小百科全书的容量
- 9B 模型 = 约 18 GB = 大约一座小型图书馆
但知识不是线性增长的。0.6B 必须做艰难的取舍——哪些常识保留?哪些专业领域舍弃?最后保留下来的只是"语言的形状"和最高频的事实。问它"乔布斯哪年去世"它可能瞎编;问它"红楼梦谁写的"它也未必能稳。
9B 大到能同时塞下:通用常识 + 多种语言 + 数学公式 + 编程语法 + 文学风格……一个网络里塞十几个"子专家",而 0.6B 只能塞一个糊涂的"通才"。
② 涌现能力的"门槛",0.6B 根本没跨过去
大模型有些能力是"全有或全无"的,存在一个最低参数门槛:
| 能力 | 大约门槛 | 0.6B 表现 | 9B 表现 |
|---|---|---|---|
| 流畅说人话 | ~0.3B | 勉强能 | 很自然 |
| 跟从复杂指令 | ~1B | 经常跑偏 | 大体能跟 |
| 简单数学(两位数运算) | ~3B | 几乎不行 | 能做对一部分 |
| 多步推理 / Chain-of-Thought | ~7B | 完全做不到 | 开始有 |
| 写能跑的代码 | ~7B | 极不稳定 | 简单题能写 |
| 角色扮演 / 长对话保持人设 | ~7B | 几轮就乱 | 稳定 |
这就像盖楼——没盖到 5 层之前,你装电梯没意义。0.6B 的容量根本"撑不起"推理这种复杂能力。
③ 一个更深的原因:模型不仅在记知识,还在记"思考的回路"
大模型内部有研究者发现了所谓的"电路(circuit)"——多个神经元协同实现某种功能,比如:
- 指代消解电路:理解"它"指代前面哪个名词
- 算术电路:执行多步加减
- 括号匹配电路:写代码时配对
{}()
这些电路通常需要几亿到几十亿参数才能稳定形成。0.6B 模型连这些"思考的回路"都没长出来,所以它的失败不是"知识不够",而是根本没装上这些功能模块。
④ 实战对比:一个真实的题目,三个尺寸的回答
题目:"小明有 12 个苹果,分给 3 个朋友,每人一样多。如果再给每个朋友 2 个,每人现在有多少?"
- Qwen 0.6B 回答(典型):"小明给每个朋友 4 个苹果。" ❌(没算第二步)
- Qwen 3B 回答(典型):"每人分到 4 个,再加 2 个,所以是 6 个。" ✅(步骤简单,但能对)
- Qwen 9B 回答(典型):"第一步:12÷3 = 4。每人 4 个。第二步:再加 2 个,每人 4+2 = 6 个。最终答案:每人 6 个苹果。" ✅✅(步骤清晰、过程可验证)
- Qwen 32B 回答:可能还会主动给一个表格、举一反三、提示你"如果数字变成 15 怎么算"。
注意——不只是"对/错"的差别,是"会不会思考"的差别。
⑤ 那 0.6B 还有用吗?有!但要用对地方
别看 0.6B"傻",它有致命的优势:
- 快:在普通手机/树莓派上都能跑,延迟几十毫秒
- 小:500MB 以下,能塞进任何设备
- 便宜:API 价格可以低到 9B 的 1/20
所以它的舞台是:简单分类、智能路由、标题生成、关键词抽取、敏感词过滤——这些任务你用 9B 是浪费,用 0.6B 又快又便宜。
业界一个很火的设计模式叫 "模型路由器":
用户问题 → 0.6B 模型先判断"这是个简单问题还是复杂问题?"
↓
简单 → 给 3B 模型回答(便宜)
复杂 → 给 70B 模型回答(贵但准)
2
3
4
这样既能保证质量,又能把成本压低 80%。
⑥ 一句话总结
小模型不是"差版本",是"完全不同的物种"。 0.6B 是麻雀(敏捷、便宜、做小事),9B 是中型鸟(能飞远),70B 是猛禽(能抓大猎物)。 不存在"以小搏大",只存在"用对地方"。
选模型的核心心法:先问任务复杂度,再选参数尺寸。不要一上来就用最大的,也别奢望小模型干大事。
# 五、幕后故事:GPT-3 是怎么让全世界改变看法的
2020 年 5 月,OpenAI 发布 GPT-3。当时业内的反应是分裂的:
- 学术界:嗤之以鼻。"不就是个更大的 GPT-2 吗?没有任何架构创新,靠堆参数算什么科研?"
- 工程师圈:开始疯传一些 demo。
然后真正改变历史的事件发生了——一位推特用户 Sharif Shameem 用 GPT-3 做了个 demo:他对着 GPT-3 用自然语言描述:"我要一个有红色按钮的页面,按钮下面有一段欢迎文字。" GPT-3 直接生成了能跑的 HTML 代码。
这条推特一夜爆红。所有人才意识到:这玩意儿不是"更好的语言模型",它是个"通用任务求解器"。
没人教过 GPT-3 怎么写 HTML,没人专门训练过它"理解 UI 描述"。它就是在预训练里自己学会了。
这就是涌现最让人震撼的地方——模型在某个尺寸之后,开始"举一反三"。这种能力不是任何研究员设计出来的,它是"长出来"的。这件事也彻底改变了整个 AI 行业的研究方向:从"我设计什么算法"变成了"我怎么把模型做得更大"。

