# 涌现——为什么"大"模型才有用?

作者:小傅哥
博客:https://bugstack.cn (opens new window)

沉淀、分享、成长,让自己和他人都能有所收获!😄

大家好,我是技术UP主小傅哥。

一个奇怪的现象:模型小的时候某项能力 = 0,再大一点还是 = 0,再大还是 = 0……大到某个临界点,能力突然跳到 80%! 这个现象叫 涌现(Emergence)。这就是为什么各家公司在拼命堆参数。

# 一、一个奇怪的现象

研究人员发现一个反直觉的现象:

  • 模型小的时候,做某项任务的能力 = 0
  • 模型变大一点,能力还是 = 0
  • 模型再变大,能力依然 = 0
  • ……
  • 模型大到某个临界点,能力突然跳到 80%!
graph LR
    A["1亿参数 不会做数学"] --> B["10亿参数 还是不会"]
    B --> C["100亿参数 仍然不会"]
    C --> D["1000亿参数 突然会了!"]
1
2
3
4

# 二、一个生活化的类比

想象小孩学语言:

  • 6 个月:什么都不会说
  • 12 个月:会说"妈妈、爸爸"
  • 18 个月:还是只会单词
  • 2 岁:突然开始说完整句子

不是大脑容量缓慢提升,是积累到了某个量级,质变才发生

大模型也是这个道理。

# 三、哪些能力是"涌现"出来的?

  • 逻辑推理:能做多步数学题
  • 代码能力:能写出能跑的程序
  • 跨语言翻译:没专门训练过中翻法,也能做
  • 角色扮演:能稳定扮演一个角色
  • 指令遵循:能按你说的格式输出

💡 这就是为什么"小模型"和"大模型"不仅仅是程度差异,而是能力级别的差异。这也是为什么各家公司在拼命堆参数。

# 四、现实拷问:为什么 Qwen 0.6B 比 Qwen 9B 差那么多?

你下载过 Ollama 或者 LM Studio 的话,会看到同一个家族(比如 Qwen、Llama、DeepSeek)有一堆不同尺寸:0.5B / 1.5B / 3B / 7B / 9B / 14B / 32B / 72B……

一个特别常见的疑问是:

"模型名字都一样、训练数据也都一样,凭什么 9B 就能聊天写代码,0.6B 连话都说不利索?参数量才差 10 几倍而已啊?"

这正是"涌现"在你电脑上的真实写照。我们一层层拆开看。


① 参数差 10 倍,"知识容量"差的可不止 10 倍

大模型本质是把世界知识"压缩"进参数里(前面讲过的有损压缩)。

  • 0.6B 模型 = 约 0.6 GB(FP16)= 一本小百科全书的容量
  • 9B 模型 = 约 18 GB = 大约一座小型图书馆

知识不是线性增长的。0.6B 必须做艰难的取舍——哪些常识保留?哪些专业领域舍弃?最后保留下来的只是"语言的形状"和最高频的事实。问它"乔布斯哪年去世"它可能瞎编;问它"红楼梦谁写的"它也未必能稳。

9B 大到能同时塞下:通用常识 + 多种语言 + 数学公式 + 编程语法 + 文学风格……一个网络里塞十几个"子专家",而 0.6B 只能塞一个糊涂的"通才"。


② 涌现能力的"门槛",0.6B 根本没跨过去

大模型有些能力是"全有或全无"的,存在一个最低参数门槛:

能力 大约门槛 0.6B 表现 9B 表现
流畅说人话 ~0.3B 勉强能 很自然
跟从复杂指令 ~1B 经常跑偏 大体能跟
简单数学(两位数运算) ~3B 几乎不行 能做对一部分
多步推理 / Chain-of-Thought ~7B 完全做不到 开始有
写能跑的代码 ~7B 极不稳定 简单题能写
角色扮演 / 长对话保持人设 ~7B 几轮就乱 稳定

这就像盖楼——没盖到 5 层之前,你装电梯没意义。0.6B 的容量根本"撑不起"推理这种复杂能力。


③ 一个更深的原因:模型不仅在记知识,还在记"思考的回路"

大模型内部有研究者发现了所谓的"电路(circuit)"——多个神经元协同实现某种功能,比如:

  • 指代消解电路:理解"它"指代前面哪个名词
  • 算术电路:执行多步加减
  • 括号匹配电路:写代码时配对 { } ( )

这些电路通常需要几亿到几十亿参数才能稳定形成。0.6B 模型连这些"思考的回路"都没长出来,所以它的失败不是"知识不够",而是根本没装上这些功能模块


④ 实战对比:一个真实的题目,三个尺寸的回答

题目:"小明有 12 个苹果,分给 3 个朋友,每人一样多。如果再给每个朋友 2 个,每人现在有多少?"

  • Qwen 0.6B 回答(典型):"小明给每个朋友 4 个苹果。" ❌(没算第二步)
  • Qwen 3B 回答(典型):"每人分到 4 个,再加 2 个,所以是 6 个。" ✅(步骤简单,但能对)
  • Qwen 9B 回答(典型):"第一步:12÷3 = 4。每人 4 个。第二步:再加 2 个,每人 4+2 = 6 个。最终答案:每人 6 个苹果。" ✅✅(步骤清晰、过程可验证)
  • Qwen 32B 回答:可能还会主动给一个表格、举一反三、提示你"如果数字变成 15 怎么算"。

注意——不只是"对/错"的差别,是"会不会思考"的差别


⑤ 那 0.6B 还有用吗?有!但要用对地方

别看 0.6B"傻",它有致命的优势

  • :在普通手机/树莓派上都能跑,延迟几十毫秒
  • :500MB 以下,能塞进任何设备
  • 便宜:API 价格可以低到 9B 的 1/20

所以它的舞台是:简单分类、智能路由、标题生成、关键词抽取、敏感词过滤——这些任务你用 9B 是浪费,用 0.6B 又快又便宜。

业界一个很火的设计模式叫 "模型路由器"

用户问题 → 0.6B 模型先判断"这是个简单问题还是复杂问题?"
           ↓
      简单 → 给 3B 模型回答(便宜)
      复杂 → 给 70B 模型回答(贵但准)
1
2
3
4

这样既能保证质量,又能把成本压低 80%。


⑥ 一句话总结

小模型不是"差版本",是"完全不同的物种"。 0.6B 是麻雀(敏捷、便宜、做小事),9B 是中型鸟(能飞远),70B 是猛禽(能抓大猎物)。 不存在"以小搏大",只存在"用对地方"。

选模型的核心心法:先问任务复杂度,再选参数尺寸。不要一上来就用最大的,也别奢望小模型干大事。

# 五、幕后故事:GPT-3 是怎么让全世界改变看法的

2020 年 5 月,OpenAI 发布 GPT-3。当时业内的反应是分裂的:

  • 学术界:嗤之以鼻。"不就是个更大的 GPT-2 吗?没有任何架构创新,靠堆参数算什么科研?"
  • 工程师圈:开始疯传一些 demo。

然后真正改变历史的事件发生了——一位推特用户 Sharif Shameem 用 GPT-3 做了个 demo:他对着 GPT-3 用自然语言描述:"我要一个有红色按钮的页面,按钮下面有一段欢迎文字。" GPT-3 直接生成了能跑的 HTML 代码。

这条推特一夜爆红。所有人才意识到:这玩意儿不是"更好的语言模型",它是个"通用任务求解器"

没人教过 GPT-3 怎么写 HTML,没人专门训练过它"理解 UI 描述"。它就是在预训练里自己学会了

这就是涌现最让人震撼的地方——模型在某个尺寸之后,开始"举一反三"。这种能力不是任何研究员设计出来的,它是"长出来"的。这件事也彻底改变了整个 AI 行业的研究方向:从"我设计什么算法"变成了"我怎么把模型做得更大"。