跳转至

Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning

会议: AAAI 2026
arXiv: 2507.10007
代码: https://github.com/hfutml/cog-cot
领域: LLM推理 / 可解释性
关键词: CoT推理可靠性, 内部认知, 注意力头探测, 置信度预测器, Beam Search引导

一句话总结

本文发现 LLM 在 CoT 推理过程中,中间层的注意力头激活值隐式编码了推理步骤的真实性信息(最高 85% 探测准确率),据此训练置信度预测器引导 Beam Search 动态选择高置信度推理路径,在数学/符号/常识推理任务上超越 Self-Consistency 和 PRM Guided Search。

研究背景与动机

  1. 领域现状:CoT 推理通过分步推理释放了 LLM 的深层推理能力,但其可靠性被中间步骤的错误累积严重削弱——一步错则后续全错。
  2. 现有痛点:现有缓解方法(Self-Consistency/Self-Evaluation/PRM)都依赖表面层的 Token 概率或需要训练额外的奖励模型。但 LLM 的过度自信已被广泛证实——生成概率不等于实际正确性,概率高不代表真的对。
  3. 核心矛盾:类似"人类口是心非"的现象——LLM 即使在生成错误输出时,其内部潜空间仍然保留着结构化的事实知识(通过神经激活模式编码可验证信息)。表面概率和内部认知之间存在分离。
  4. 本文要解决什么? 如何挖掘 LLM 内部的"隐藏认知"——在 CoT 推理过程中利用模型自身对真实性的内在判断来引导更可靠的推理?
  5. 切入角度:扩展 ITI 的发现——中间层注意力头对真实性最敏感。但与 ITI 关注静态 QA 不同,本文首次将其扩展到动态 CoT 推理场景,验证模型在渐进式推理中也隐式追踪步骤真实性。
  6. 核心 idea 一句话:用探测技术找到对真实性最敏感的注意力头,提取其激活值训练置信度预测器,引导 Beam Search 选择高置信度推理路径。

方法详解

整体框架

三步流程:(1) 构建 CoT 二标注数据集——对每个推理步骤标注正确/错误;(2) 训练置信度预测器——用探测技术找到中间层真实性敏感头,提取 Top-K 头的激活值训练分类器;(3) 引导 CoT 生成——在步骤级 Beam Search 中使用置信度预测器选择最可靠的推理路径。

关键设计

  1. 真实性敏感注意力头的探测与发现:
  2. 做什么:识别 Transformer 哪些注意力头对 CoT 步骤正确性最敏感
  3. 核心思路:构建 CoT 二标注数据 \((Q, S_{1,...,n-1}, S_n^{\text{true/false}})\),在每个注意力头的激活值上训练线性探针分类器,分类准确率衡量该头对真实性的编码能力
  4. 关键发现:中间层(约 1/3 到 2/3 深度)的注意力头对真实性最敏感,最高探测准确率达 85%。且 LLaVA(多模态)和 LLaMA(单模态)的敏感头分布高度相似——表明这种"隐藏认知"来自预训练而非任务微调

  5. 置信度预测器:

  6. 做什么:将分散的真实性信号转化为可操作的标量置信度分数
  7. 核心思路:选择探测准确率最高的 Top-\(K\) 个注意力头(跨层),取最后一个 Token 的激活值拼接为特征向量 \(\mathbf{v} = \text{Concat}(\mathbf{h}_{h_1}^{l_1}, ..., \mathbf{h}_{h_K}^{l_K})\),通过线性分类器 + sigmoid 输出置信度 \(p_\theta(y|\mathbf{x}) = \sigma(\mathbf{W} \cdot \mathbf{v} + b)\)
  8. 使用 ECE Loss 代替 MSE——用交叉验证的经验准确率替代二元硬标签作为软目标,显著改善校准
  9. vs ACTCAB(仅用最后层):本文方法从多层选择敏感头,ECE/Brier/AUC 三指标全面优于 ACTCAB

  10. 置信度引导的 Beam Search:

  11. 做什么:在 CoT 的每一步生成多个候选,用置信度预测器选择最优
  12. 核心思路:Step-by-step 分解 CoT → 每步用 Beam Search 生成 \(M\) 个候选 → 综合评分 \(\text{Score}(C) = \lambda \cdot \beta(C) + (1-\lambda) \cdot \bar{P}(C)\),其中 \(\beta\) 是置信度、\(\bar{P}\) 是生成概率、\(\lambda=0.5\)
  13. 选择最高分候选追加到推理链,迭代直到生成最终答案

实验关键数据

主实验 — 单模态推理(LLaMA2-13B)

方法 GSM8K SVAMP BoolExpr StrategyQA BoolQ Avg
CoT-few 39.9 53.7 66.0 57.6 68.8 57.2
Self-Consistency 39.3 54.0 65.9 56.6 70.0 57.2
PRM 39.2 55.0 65.8 53.8 68.0 56.4
Ours 42.8 55.7 66.8 59.2 68.8 58.7

多模态推理(LLaVA-13B)

方法 ScienceQA CLEVR-Math RealWorldQA MMStar Avg
CoT-few 61.9 31.9 10.7 41.0 36.4
PRM 61.3 33.9 9.7 41.3 36.6
Ours 69.2 31.9 14.0 42.0 39.3

置信度预测器校准(LLaMA2-13B, WikiQA)

方法 ECE↓ Brier↓ AUC↑
Seq Likelihood 0.254 0.291 0.640
"Is True" Prob 0.146 0.231 0.747
ACTCAB (最后层) 0.058 0.149 0.868
Ours (多层Top-K头) 0.037 0.102 0.934

关键发现

  • 置信度预测器校准远优于表面概率方法——ECE 从 0.254 降到 0.037,AUC 从 0.640 提升到 0.934
  • 中间层注意力头是真实性信息的最密集来源——直接使用最后层(ACTCAB)信息量不足
  • LLaMA2-70B 上改进持续有效(68.2→71.5 avg),说明方法跨参数规模泛化
  • 在 DeepSeek-R1 蒸馏模型上也有效(75.3→77.6 avg)——即使是专门训练过 CoT 的推理模型也能受益
  • 随机选择候选(不使用置信度引导)性能下降甚至低于基线 CoT——验证了置信度预测器的必要性
  • 可与错误自修正技术兼容(设置置信度阈值触发自修正)

亮点与洞察

  • "口是心非"的类比:LLM 即使输出错误答案,内部中间层仍然编码着正确信息——这个洞察为利用模型内部信号纠正表面错误提供了理论基础
  • 从静态 QA 到动态 CoT:首次将真实性探测从静态问答扩展到渐进式 CoT 推理——验证了模型在动态推理过程中也持续追踪步骤真实性
  • 多层 Top-K 头选择:不局限于最后层,从全部层中选择最敏感的 K 个头——跨层聚合获得更丰富的真实性信号
  • 与 URaG 的呼应:URaG 发现 MLLM 中间层编码了检索能力,本文发现中间层编码了真实性判断——进一步验证了"中间层是 Transformer 的关键信息层"

局限性 / 可改进方向

  • 置信度预测器需要针对每个模型单独训练探针和选择敏感头
  • Beam Search 增加了推理时间——每步需要生成多个候选并前向传播
  • 仅使用最后一个 Token 的激活值——可能遗漏序列中其他 Token 的信号
  • 多模态场景的改进不如单模态显著——可能因为视觉信息的真实性编码模式不同

相关工作与启发

  • vs Self-Consistency: SC 通过多次采样+投票选择答案,本文通过内部置信度逐步选择推理路径——更细粒度,且不需要最终答案才能判断
  • vs PRM: PRM 需要训练完整的奖励模型,本文只需轻量线性探针+选择注意力头——成本更低
  • vs ITI/DOLA: ITI 用固定导向向量干预激活,DOLA 用层间 logit 对比——本文不干预而是观测+选择
  • vs LLM-CAS(本批笔记): LLM-CAS 用 RL 学习"如何扰动",本文用探针学习"如何判断"——检测 vs 纠正,可以组合

评分

  • 新颖性: ⭐⭐⭐⭐ 将真实性探测扩展到动态 CoT 场景有新意,但探针+Beam Search 的框架较直接
  • 实验充分度: ⭐⭐⭐⭐⭐ 7B/13B/70B 单模态 + 7B/13B 多模态 + DeepSeek-R1 + 校准评估 + 消融
  • 写作质量: ⭐⭐⭐⭐ 洞察清晰,实验详实
  • 价值: ⭐⭐⭐⭐⭐ "模型知道自己在说谎"的洞察对可靠推理具有深远意义