Base Models Know How to Reason, Thinking Models Learn When¶

会议: NeurIPS 2025
arXiv: 2510.07364
代码: https://github.com/cvenhoff/thinking-llms-interp
领域: LLM 推理 / 机械可解释性 / 表征工程
关键词: Thinking Models, Steering Vectors, SAE, 推理机制, 基座模型

一句话总结¶

通过无监督 SAE 聚类发现 thinking model 的推理机制分类，然后用 steering vector 在基座模型上激活这些潜在推理能力，混合模型恢复高达 91% 的 thinking-base 性能差距（无需权重更新），证明基座模型已具备推理能力，thinking model 只是学会了"何时"部署它们。

研究背景与动机¶

领域现状：DeepSeek R1、QwQ 等 thinking model 通过长链推理显著超越基座模型，但其优势来源不清楚
现有痛点：
对 thinking model 为何有效存在多种竞争假说：学到新能力 vs 更好的结构化 vs 复用已有能力 vs 只是更多计算
现有分析依赖人工检查推理轨迹，主观且可能遗漏模式
核心矛盾：thinking model 是"学会了新的推理方法"还是"学会了在正确时机使用已有方法"？
本文要解决什么？ 提供因果证据证明基座模型已具备推理能力
切入角度：用 SAE 无监督聚类发现推理类别，再用 steering vector 在基座模型上激活对应能力
核心idea一句话：预训练教会模型"如何推理"，后训练（RLVR）教会模型"何时推理"

方法详解¶

整体框架¶

三阶段：(1) 无监督推理机制分类——对 thinking model 推理轨迹的句子级激活做 SAE 聚类，发现 ~15 种推理类别；(2) 提取 steering vector——对每种推理类别计算基座和thinking模型间的激活差；(3) 混合模型——基座模型生成时，用分类器检测当前应用哪种推理机制，注入对应 steering vector。

关键设计¶

无监督推理分类（Top-K SAE 聚类）:
做什么：从 thinking model 的推理轨迹中自动发现可解释的推理机制类别
核心思路：在 43 万句推理轨迹上训练 restricted-decoder SAE（潜维度 10-25，远小于输入维度 1536+），每个潜在特征对应一种推理机制。用完整性+独立性+一致性三维评分选择最佳配置
设计动机：避免人工标注偏见，确保分类完整且可解释
Steering Vector 提取与应用:
做什么：将每种推理机制编码为一个方向向量，注入基座模型即可激活对应能力
核心思路：对SAE每个聚类，收集基座和thinking模型在该类别句子上的平均激活差作为 steering vector。生成时对每个 token 计算 SAE 激活，确定最活跃推理类别，注入对应 vector
设计动机：如果基座模型已有潜在推理能力，那么一个简单的方向偏移就应能激活它
混合模型推理（Hybrid Model）:
做什么：基座模型+选择性 steering = 恢复 thinking 性能
核心思路：基座模型负责主 token 生成，每个位置用 thinking 模型的 SAE 激活分类器检测当前推理类别，施加对应 steering vector。通过困惑度选择最佳系数和窗口大小。仅 12% 的 token 被 steer
设计动机：仅用 15 个 steering vector 就能显著提升，排除了"steering 只是偏向特定 token"的替代解释

损失函数 / 训练策略¶

SAE：Top-K 稀疏自编码器，K 约束同时活跃的推理类别数
混合模型：无需训练，零权重更新，仅在推理时注入 steering vector
选择标准：按 thinking model 困惑度最低来选 steering 强度

实验关键数据¶

主实验¶

GSM8K 和 MATH500 上的混合模型性能

基座模型	Thinking模型	基座 Acc	混合 Acc	Thinking Acc	Gap Recovery
Llama-3.1-8B	R1-Distill-8B	37.8%	63.4%	83.4%	56.1%
Qwen2.5-14B	R1-Distill-14B	90.8%	93.0%	94.2%	64.7%
Qwen2.5-32B	R1-Distill-32B	92.6%	94.4%	94.8%	81.8%
Qwen2.5-32B	QwQ-32B	92.6%	94.8%	96.4%	57.9%

消融实验¶

配置	说明
随机 steering vector	性能下降，排除偶然性
错误类别 steering	性能下降，说明类别匹配重要
仅 12% token 被 steer	大部分token由基座模型自主生成

关键发现¶

仅 15 个 steering vector 即可恢复高达 91% 的性能差距（MATH500 上 Qwen2.5-Math-1.5B）
Llama-8B 获得最大绝对提升（+25.6%），说明基座模型确实有潜在推理能力
蒸馏训练的模型（R1-Distill）和 RLVR 训练的模型（QwQ）都适用
推理机制分类在 15-25 类时最优，与认知科学中的"基本推理操作"数量一致

亮点与洞察¶

重新定义后训练的角色：RLVR 不是教模型"如何推理"，而是教"何时推理"——这改变了我们对 thinking model 训练的理解
无监督推理分类的方法论贡献：用 restricted SAE 做聚类是发现 AI 认知结构的新工具
极简因果验证：仅用 15 个 vector steer 12% 的 token 就有显著效果，是极强的因果证据
跨架构跨训练方法泛化：在 Qwen、Llama、蒸馏型、RLVR 型上都有效

局限性 / 可改进方向¶

混合模型依赖 thinking model 的 SAE 分类器——实际部署时仍需 thinking model
仅在数学推理任务（GSM8K/MATH500）上验证，代码/逻辑推理未测试
Qwen2.5-Math-1.5B 的 gap recovery 为 0%（基座已很强），说明基座足够强时 steering 无额外收益
句子级聚类粒度可能不够精细

评分¶

新颖性: ⭐⭐⭐⭐⭐ "基座已会推理，thinking 只学何时用"的洞察极具影响力
实验充分度: ⭐⭐⭐⭐ 3个基座+4个thinking模型交叉验证完整
写作质量: ⭐⭐⭐⭐⭐ 逻辑严密，图表设计精美
价值: ⭐⭐⭐⭐⭐ 改变对 thinking model 训练范式的理解