Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning¶

会议: AAAI 2026
arXiv: 2507.10007
代码: https://github.com/hfutml/cog-cot
领域: LLM推理 / 可解释性
关键词: CoT推理可靠性, 内部认知, 注意力头探测, 置信度预测器, Beam Search引导

一句话总结¶

本文发现 LLM 在 CoT 推理过程中，中间层的注意力头激活值隐式编码了推理步骤的真实性信息（最高 85% 探测准确率），据此训练置信度预测器引导 Beam Search 动态选择高置信度推理路径，在数学/符号/常识推理任务上超越 Self-Consistency 和 PRM Guided Search。

研究背景与动机¶

领域现状：CoT 推理通过分步推理释放了 LLM 的深层推理能力，但其可靠性被中间步骤的错误累积严重削弱——一步错则后续全错。
现有痛点：现有缓解方法（Self-Consistency/Self-Evaluation/PRM）都依赖表面层的 Token 概率或需要训练额外的奖励模型。但 LLM 的过度自信已被广泛证实——生成概率不等于实际正确性，概率高不代表真的对。
核心矛盾：类似"人类口是心非"的现象——LLM 即使在生成错误输出时，其内部潜空间仍然保留着结构化的事实知识（通过神经激活模式编码可验证信息）。表面概率和内部认知之间存在分离。
本文要解决什么？ 如何挖掘 LLM 内部的"隐藏认知"——在 CoT 推理过程中利用模型自身对真实性的内在判断来引导更可靠的推理？
切入角度：扩展 ITI 的发现——中间层注意力头对真实性最敏感。但与 ITI 关注静态 QA 不同，本文首次将其扩展到动态 CoT 推理场景，验证模型在渐进式推理中也隐式追踪步骤真实性。
核心 idea 一句话：用探测技术找到对真实性最敏感的注意力头，提取其激活值训练置信度预测器，引导 Beam Search 选择高置信度推理路径。

方法详解¶

整体框架¶

三步流程：(1) 构建 CoT 二标注数据集——对每个推理步骤标注正确/错误；(2) 训练置信度预测器——用探测技术找到中间层真实性敏感头，提取 Top-K 头的激活值训练分类器；(3) 引导 CoT 生成——在步骤级 Beam Search 中使用置信度预测器选择最可靠的推理路径。

关键设计¶

真实性敏感注意力头的探测与发现:
做什么：识别 Transformer 哪些注意力头对 CoT 步骤正确性最敏感
核心思路：构建 CoT 二标注数据 \((Q, S_{1,...,n-1}, S_n^{\text{true/false}})\)，在每个注意力头的激活值上训练线性探针分类器，分类准确率衡量该头对真实性的编码能力
关键发现：中间层（约 1/3 到 2/3 深度）的注意力头对真实性最敏感，最高探测准确率达 85%。且 LLaVA（多模态）和 LLaMA（单模态）的敏感头分布高度相似——表明这种"隐藏认知"来自预训练而非任务微调
置信度预测器:
做什么：将分散的真实性信号转化为可操作的标量置信度分数
核心思路：选择探测准确率最高的 Top-\(K\) 个注意力头（跨层），取最后一个 Token 的激活值拼接为特征向量 \(\mathbf{v} = \text{Concat}(\mathbf{h}_{h_1}^{l_1}, ..., \mathbf{h}_{h_K}^{l_K})\)，通过线性分类器 + sigmoid 输出置信度 \(p_\theta(y|\mathbf{x}) = \sigma(\mathbf{W} \cdot \mathbf{v} + b)\)
使用 ECE Loss 代替 MSE——用交叉验证的经验准确率替代二元硬标签作为软目标，显著改善校准
vs ACTCAB（仅用最后层）：本文方法从多层选择敏感头，ECE/Brier/AUC 三指标全面优于 ACTCAB
置信度引导的 Beam Search:
做什么：在 CoT 的每一步生成多个候选，用置信度预测器选择最优
核心思路：Step-by-step 分解 CoT → 每步用 Beam Search 生成 \(M\) 个候选 → 综合评分 \(\text{Score}(C) = \lambda \cdot \beta(C) + (1-\lambda) \cdot \bar{P}(C)\)，其中 \(\beta\) 是置信度、\(\bar{P}\) 是生成概率、\(\lambda=0.5\)
选择最高分候选追加到推理链，迭代直到生成最终答案

实验关键数据¶

主实验 — 单模态推理（LLaMA2-13B）¶

方法	GSM8K	SVAMP	BoolExpr	StrategyQA	BoolQ	Avg
CoT-few	39.9	53.7	66.0	57.6	68.8	57.2
Self-Consistency	39.3	54.0	65.9	56.6	70.0	57.2
PRM	39.2	55.0	65.8	53.8	68.0	56.4
Ours	42.8	55.7	66.8	59.2	68.8	58.7

多模态推理（LLaVA-13B）¶

方法	ScienceQA	CLEVR-Math	RealWorldQA	MMStar	Avg
CoT-few	61.9	31.9	10.7	41.0	36.4
PRM	61.3	33.9	9.7	41.3	36.6
Ours	69.2	31.9	14.0	42.0	39.3

置信度预测器校准（LLaMA2-13B, WikiQA）¶

方法	ECE↓	Brier↓	AUC↑
Seq Likelihood	0.254	0.291	0.640
"Is True" Prob	0.146	0.231	0.747
ACTCAB (最后层)	0.058	0.149	0.868
Ours (多层Top-K头)	0.037	0.102	0.934

关键发现¶

置信度预测器校准远优于表面概率方法——ECE 从 0.254 降到 0.037，AUC 从 0.640 提升到 0.934
中间层注意力头是真实性信息的最密集来源——直接使用最后层（ACTCAB）信息量不足
LLaMA2-70B 上改进持续有效（68.2→71.5 avg），说明方法跨参数规模泛化
在 DeepSeek-R1 蒸馏模型上也有效（75.3→77.6 avg）——即使是专门训练过 CoT 的推理模型也能受益
随机选择候选（不使用置信度引导）性能下降甚至低于基线 CoT——验证了置信度预测器的必要性
可与错误自修正技术兼容（设置置信度阈值触发自修正）

亮点与洞察¶

"口是心非"的类比：LLM 即使输出错误答案，内部中间层仍然编码着正确信息——这个洞察为利用模型内部信号纠正表面错误提供了理论基础
从静态 QA 到动态 CoT：首次将真实性探测从静态问答扩展到渐进式 CoT 推理——验证了模型在动态推理过程中也持续追踪步骤真实性
多层 Top-K 头选择：不局限于最后层，从全部层中选择最敏感的 K 个头——跨层聚合获得更丰富的真实性信号
与 URaG 的呼应：URaG 发现 MLLM 中间层编码了检索能力，本文发现中间层编码了真实性判断——进一步验证了"中间层是 Transformer 的关键信息层"

局限性 / 可改进方向¶

置信度预测器需要针对每个模型单独训练探针和选择敏感头
Beam Search 增加了推理时间——每步需要生成多个候选并前向传播
仅使用最后一个 Token 的激活值——可能遗漏序列中其他 Token 的信号
多模态场景的改进不如单模态显著——可能因为视觉信息的真实性编码模式不同

评分¶

新颖性: ⭐⭐⭐⭐ 将真实性探测扩展到动态 CoT 场景有新意，但探针+Beam Search 的框架较直接
实验充分度: ⭐⭐⭐⭐⭐ 7B/13B/70B 单模态 + 7B/13B 多模态 + DeepSeek-R1 + 校准评估 + 消融
写作质量: ⭐⭐⭐⭐ 洞察清晰，实验详实
价值: ⭐⭐⭐⭐⭐ "模型知道自己在说谎"的洞察对可靠推理具有深远意义