Verifying Chain-of-Thought Reasoning via Its Computational Graph¶

会议: ICLR2026
arXiv: 2510.09312
代码: GitHub
领域: llm_reasoning
关键词: mechanistic interpretability, CoT verification, attribution graph, transcoder, circuit analysis

一句话总结¶

提出CRV白盒方法，通过分析LLM推理步骤的归因图（计算图）结构特征来验证CoT正确性，在Arithmetic任务上AUROC达92.47，远超黑盒(76.45)和灰盒方法，并通过因果干预成功纠正错误推理。

背景与动机¶

CoT推理虽强大但过程本身可能有缺陷，需要自动验证
黑盒方法（logit分布）和灰盒方法（hidden state探针）只能检测错误相关性，无法解释为何计算出错
成熟的机制可解释性理论认为模型通过"circuits"（特化子图）实现推理，错误是潜在算法的执行缺陷
归因图可视为推理的"执行轨迹"，类似软件调试中检查execution trace
需要让模型中间计算可解释——通过transcoder替换MLP实现

方法¶

CRV四阶段pipeline:

可解释化: 将LLM每层MLP替换为训练好的transcoder(稀疏过完备表示)，保持功能等价但中间表示可解释
构建归因图: 对每个推理步骤，用贪心路径查找算法从最终logit反向追踪高归因因果路径，得到稀疏加权有向图 \(G_i=(\mathcal{V}, \mathcal{E})\)，节点=输入token+transcoder特征+输出logit
提取结构指纹: 从归因图提取固定维度特征向量(全局图统计+节点影响力统计+拓扑/路径特征)，包括图密度、中心性、连通性等
诊断分类器: 用Gradient Boosting Classifier在结构特征上训练，预测推理步骤正确/错误

实验¶

方法类别	方法	Boolean AUROC	Arithmetic AUROC	GSM8K AUROC
Black-box	MaxProb	58.81	61.87	54.91
Black-box	Energy	51.08	76.45	62.55
Gray-box	CoE-C	51.03	69.39	53.57
Gray-box	MLP Probe	53.63	54.41	56.02
White-box	CRV	75.87	92.47	70.17

关键发现: (1) CRV在所有数据集和指标上大幅超越所有baseline，Arithmetic上FPR@95从63%降至37%; (2) 错误的结构签名高度领域特定——Boolean/Arithmetic/GSM8K的失败模式计算图结构各异; (3) 跨域泛化有限(GSM8K→Boolean仅45.77 AUROC)，但Combined训练有所改善; (4) 通过分析可解释特征和因果干预(修改单个transcoder特征)，成功纠正模型的错误推理; (5) 结构化推理任务(合成数据)的错误签名更一致、更可检测。

亮点¶

从"检测错误"走向"理解错误计算"，white-box范式极具科学意义
归因图结构特征作为推理正确性信号是全新视角
因果干预实验：修改transcoder特征→纠正推理，建立了结构签名与错误的因果关系
领域特异性发现揭示不同推理任务的失败源于不同计算模式

局限¶

计算密集：需trainscoder替换+归因图构建+特征提取，不适合实际部署
仅在Llama-3.1-8B上验证，对更大模型/推理模型的适用性未知
跨域泛化差，说明结构签名不够通用
依赖transcoder质量——替换MLP后模型行为可能有微妙偏移
聚焦单步验证，未扩展到完整CoT链级验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ (计算图结构验证推理正确性，全新方向)
实验充分度: ⭐⭐⭐⭐ (3数据集+多baseline+因果干预)
写作质量: ⭐⭐⭐⭐⭐ (问题定义精准，RQ驱动的实验设计)
价值: ⭐⭐⭐⭐⭐ (对理解LLM推理机制有深远意义)

Verifying Chain-of-Thought Reasoning via Its Computational Graph¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限¶

相关工作¶

评分¶