Verifying Chain-of-Thought Reasoning via Its Computational Graph¶
会议: ICLR2026
arXiv: 2510.09312
代码: GitHub
领域: llm_reasoning
关键词: mechanistic interpretability, CoT verification, attribution graph, transcoder, circuit analysis
一句话总结¶
提出CRV白盒方法,通过分析LLM推理步骤的归因图(计算图)结构特征来验证CoT正确性,在Arithmetic任务上AUROC达92.47,远超黑盒(76.45)和灰盒方法,并通过因果干预成功纠正错误推理。
背景与动机¶
- CoT推理虽强大但过程本身可能有缺陷,需要自动验证
- 黑盒方法(logit分布)和灰盒方法(hidden state探针)只能检测错误相关性,无法解释为何计算出错
- 成熟的机制可解释性理论认为模型通过"circuits"(特化子图)实现推理,错误是潜在算法的执行缺陷
- 归因图可视为推理的"执行轨迹",类似软件调试中检查execution trace
- 需要让模型中间计算可解释——通过transcoder替换MLP实现
方法¶
CRV四阶段pipeline:
-
可解释化: 将LLM每层MLP替换为训练好的transcoder(稀疏过完备表示),保持功能等价但中间表示可解释
-
构建归因图: 对每个推理步骤,用贪心路径查找算法从最终logit反向追踪高归因因果路径,得到稀疏加权有向图 \(G_i=(\mathcal{V}, \mathcal{E})\),节点=输入token+transcoder特征+输出logit
-
提取结构指纹: 从归因图提取固定维度特征向量(全局图统计+节点影响力统计+拓扑/路径特征),包括图密度、中心性、连通性等
-
诊断分类器: 用Gradient Boosting Classifier在结构特征上训练,预测推理步骤正确/错误
实验¶
| 方法类别 | 方法 | Boolean AUROC | Arithmetic AUROC | GSM8K AUROC |
|---|---|---|---|---|
| Black-box | MaxProb | 58.81 | 61.87 | 54.91 |
| Black-box | Energy | 51.08 | 76.45 | 62.55 |
| Gray-box | CoE-C | 51.03 | 69.39 | 53.57 |
| Gray-box | MLP Probe | 53.63 | 54.41 | 56.02 |
| White-box | CRV | 75.87 | 92.47 | 70.17 |
关键发现: (1) CRV在所有数据集和指标上大幅超越所有baseline,Arithmetic上FPR@95从63%降至37%; (2) 错误的结构签名高度领域特定——Boolean/Arithmetic/GSM8K的失败模式计算图结构各异; (3) 跨域泛化有限(GSM8K→Boolean仅45.77 AUROC),但Combined训练有所改善; (4) 通过分析可解释特征和因果干预(修改单个transcoder特征),成功纠正模型的错误推理; (5) 结构化推理任务(合成数据)的错误签名更一致、更可检测。
亮点¶
- 从"检测错误"走向"理解错误计算",white-box范式极具科学意义
- 归因图结构特征作为推理正确性信号是全新视角
- 因果干预实验:修改transcoder特征→纠正推理,建立了结构签名与错误的因果关系
- 领域特异性发现揭示不同推理任务的失败源于不同计算模式
局限¶
- 计算密集:需trainscoder替换+归因图构建+特征提取,不适合实际部署
- 仅在Llama-3.1-8B上验证,对更大模型/推理模型的适用性未知
- 跨域泛化差,说明结构签名不够通用
- 依赖transcoder质量——替换MLP后模型行为可能有微妙偏移
- 聚焦单步验证,未扩展到完整CoT链级验证
相关工作¶
- 黑盒验证: PRM800K (Lightman et al. 2024), REVEAL (Jacovi et al. 2024)
- 灰盒探针: CoT-Kinetics (Bi et al. 2025), Chain-of-Embedding (Wang et al. 2025)
- 机制可解释性: Olah et al. 2020 circuits; transcoders (Dunefsky et al. 2024); Ameisen et al. 2025 circuit analysis
- SAE/Transcoder: Cunningham et al. 2023 sparse autoencoders
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (计算图结构验证推理正确性,全新方向)
- 实验充分度: ⭐⭐⭐⭐ (3数据集+多baseline+因果干预)
- 写作质量: ⭐⭐⭐⭐⭐ (问题定义精准,RQ驱动的实验设计)
- 价值: ⭐⭐⭐⭐⭐ (对理解LLM推理机制有深远意义)