Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning¶
会议: AAAI 2026
arXiv: 2507.10007
代码: https://github.com/hfutml/cog-cot
领域: LLM推理 / 可解释性
关键词: CoT推理可靠性, 内部认知, 注意力头探测, 置信度预测器, Beam Search引导
一句话总结¶
本文发现 LLM 在 CoT 推理过程中,中间层的注意力头激活值隐式编码了推理步骤的真实性信息(最高 85% 探测准确率),据此训练置信度预测器引导 Beam Search 动态选择高置信度推理路径,在数学/符号/常识推理任务上超越 Self-Consistency 和 PRM Guided Search。
研究背景与动机¶
- 领域现状:CoT 推理通过分步推理释放了 LLM 的深层推理能力,但其可靠性被中间步骤的错误累积严重削弱——一步错则后续全错。
- 现有痛点:现有缓解方法(Self-Consistency/Self-Evaluation/PRM)都依赖表面层的 Token 概率或需要训练额外的奖励模型。但 LLM 的过度自信已被广泛证实——生成概率不等于实际正确性,概率高不代表真的对。
- 核心矛盾:类似"人类口是心非"的现象——LLM 即使在生成错误输出时,其内部潜空间仍然保留着结构化的事实知识(通过神经激活模式编码可验证信息)。表面概率和内部认知之间存在分离。
- 本文要解决什么? 如何挖掘 LLM 内部的"隐藏认知"——在 CoT 推理过程中利用模型自身对真实性的内在判断来引导更可靠的推理?
- 切入角度:扩展 ITI 的发现——中间层注意力头对真实性最敏感。但与 ITI 关注静态 QA 不同,本文首次将其扩展到动态 CoT 推理场景,验证模型在渐进式推理中也隐式追踪步骤真实性。
- 核心 idea 一句话:用探测技术找到对真实性最敏感的注意力头,提取其激活值训练置信度预测器,引导 Beam Search 选择高置信度推理路径。
方法详解¶
整体框架¶
三步流程:(1) 构建 CoT 二标注数据集——对每个推理步骤标注正确/错误;(2) 训练置信度预测器——用探测技术找到中间层真实性敏感头,提取 Top-K 头的激活值训练分类器;(3) 引导 CoT 生成——在步骤级 Beam Search 中使用置信度预测器选择最可靠的推理路径。
关键设计¶
- 真实性敏感注意力头的探测与发现:
- 做什么:识别 Transformer 哪些注意力头对 CoT 步骤正确性最敏感
- 核心思路:构建 CoT 二标注数据 \((Q, S_{1,...,n-1}, S_n^{\text{true/false}})\),在每个注意力头的激活值上训练线性探针分类器,分类准确率衡量该头对真实性的编码能力
-
关键发现:中间层(约 1/3 到 2/3 深度)的注意力头对真实性最敏感,最高探测准确率达 85%。且 LLaVA(多模态)和 LLaMA(单模态)的敏感头分布高度相似——表明这种"隐藏认知"来自预训练而非任务微调
-
置信度预测器:
- 做什么:将分散的真实性信号转化为可操作的标量置信度分数
- 核心思路:选择探测准确率最高的 Top-\(K\) 个注意力头(跨层),取最后一个 Token 的激活值拼接为特征向量 \(\mathbf{v} = \text{Concat}(\mathbf{h}_{h_1}^{l_1}, ..., \mathbf{h}_{h_K}^{l_K})\),通过线性分类器 + sigmoid 输出置信度 \(p_\theta(y|\mathbf{x}) = \sigma(\mathbf{W} \cdot \mathbf{v} + b)\)
- 使用 ECE Loss 代替 MSE——用交叉验证的经验准确率替代二元硬标签作为软目标,显著改善校准
-
vs ACTCAB(仅用最后层):本文方法从多层选择敏感头,ECE/Brier/AUC 三指标全面优于 ACTCAB
-
置信度引导的 Beam Search:
- 做什么:在 CoT 的每一步生成多个候选,用置信度预测器选择最优
- 核心思路:Step-by-step 分解 CoT → 每步用 Beam Search 生成 \(M\) 个候选 → 综合评分 \(\text{Score}(C) = \lambda \cdot \beta(C) + (1-\lambda) \cdot \bar{P}(C)\),其中 \(\beta\) 是置信度、\(\bar{P}\) 是生成概率、\(\lambda=0.5\)
- 选择最高分候选追加到推理链,迭代直到生成最终答案
实验关键数据¶
主实验 — 单模态推理(LLaMA2-13B)¶
| 方法 | GSM8K | SVAMP | BoolExpr | StrategyQA | BoolQ | Avg |
|---|---|---|---|---|---|---|
| CoT-few | 39.9 | 53.7 | 66.0 | 57.6 | 68.8 | 57.2 |
| Self-Consistency | 39.3 | 54.0 | 65.9 | 56.6 | 70.0 | 57.2 |
| PRM | 39.2 | 55.0 | 65.8 | 53.8 | 68.0 | 56.4 |
| Ours | 42.8 | 55.7 | 66.8 | 59.2 | 68.8 | 58.7 |
多模态推理(LLaVA-13B)¶
| 方法 | ScienceQA | CLEVR-Math | RealWorldQA | MMStar | Avg |
|---|---|---|---|---|---|
| CoT-few | 61.9 | 31.9 | 10.7 | 41.0 | 36.4 |
| PRM | 61.3 | 33.9 | 9.7 | 41.3 | 36.6 |
| Ours | 69.2 | 31.9 | 14.0 | 42.0 | 39.3 |
置信度预测器校准(LLaMA2-13B, WikiQA)¶
| 方法 | ECE↓ | Brier↓ | AUC↑ |
|---|---|---|---|
| Seq Likelihood | 0.254 | 0.291 | 0.640 |
| "Is True" Prob | 0.146 | 0.231 | 0.747 |
| ACTCAB (最后层) | 0.058 | 0.149 | 0.868 |
| Ours (多层Top-K头) | 0.037 | 0.102 | 0.934 |
关键发现¶
- 置信度预测器校准远优于表面概率方法——ECE 从 0.254 降到 0.037,AUC 从 0.640 提升到 0.934
- 中间层注意力头是真实性信息的最密集来源——直接使用最后层(ACTCAB)信息量不足
- LLaMA2-70B 上改进持续有效(68.2→71.5 avg),说明方法跨参数规模泛化
- 在 DeepSeek-R1 蒸馏模型上也有效(75.3→77.6 avg)——即使是专门训练过 CoT 的推理模型也能受益
- 随机选择候选(不使用置信度引导)性能下降甚至低于基线 CoT——验证了置信度预测器的必要性
- 可与错误自修正技术兼容(设置置信度阈值触发自修正)
亮点与洞察¶
- "口是心非"的类比:LLM 即使输出错误答案,内部中间层仍然编码着正确信息——这个洞察为利用模型内部信号纠正表面错误提供了理论基础
- 从静态 QA 到动态 CoT:首次将真实性探测从静态问答扩展到渐进式 CoT 推理——验证了模型在动态推理过程中也持续追踪步骤真实性
- 多层 Top-K 头选择:不局限于最后层,从全部层中选择最敏感的 K 个头——跨层聚合获得更丰富的真实性信号
- 与 URaG 的呼应:URaG 发现 MLLM 中间层编码了检索能力,本文发现中间层编码了真实性判断——进一步验证了"中间层是 Transformer 的关键信息层"
局限性 / 可改进方向¶
- 置信度预测器需要针对每个模型单独训练探针和选择敏感头
- Beam Search 增加了推理时间——每步需要生成多个候选并前向传播
- 仅使用最后一个 Token 的激活值——可能遗漏序列中其他 Token 的信号
- 多模态场景的改进不如单模态显著——可能因为视觉信息的真实性编码模式不同
相关工作与启发¶
- vs Self-Consistency: SC 通过多次采样+投票选择答案,本文通过内部置信度逐步选择推理路径——更细粒度,且不需要最终答案才能判断
- vs PRM: PRM 需要训练完整的奖励模型,本文只需轻量线性探针+选择注意力头——成本更低
- vs ITI/DOLA: ITI 用固定导向向量干预激活,DOLA 用层间 logit 对比——本文不干预而是观测+选择
- vs LLM-CAS(本批笔记): LLM-CAS 用 RL 学习"如何扰动",本文用探针学习"如何判断"——检测 vs 纠正,可以组合
评分¶
- 新颖性: ⭐⭐⭐⭐ 将真实性探测扩展到动态 CoT 场景有新意,但探针+Beam Search 的框架较直接
- 实验充分度: ⭐⭐⭐⭐⭐ 7B/13B/70B 单模态 + 7B/13B 多模态 + DeepSeek-R1 + 校准评估 + 消融
- 写作质量: ⭐⭐⭐⭐ 洞察清晰,实验详实
- 价值: ⭐⭐⭐⭐⭐ "模型知道自己在说谎"的洞察对可靠推理具有深远意义