Reasoning Fails Where Step Flow Breaks¶

会议: ACL 2026
arXiv: 2604.06695
代码: GitHub
领域: interpretability
关键词: 推理模型可解释性, 信息流分析, 测试时干预, 注意力机制, 思维链

一句话总结¶

提出 Step-Saliency 诊断工具发现大推理模型中两种深度相关的信息流失败模式（Shallow Lock-in 和 Deep Decay），并设计 StepFlow 测试时干预方法在不重训练的情况下修复信息传播、提升推理准确率。

研究背景与动机¶

领域现状 大推理模型（LRM）通过生成长思维链（CoT）在数学、科学和代码任务上取得了优异表现，但其行为仍然不稳定且难以解释。现有分析工具大多在 token 级别工作，面对长推理轨迹时信号密集嘈杂，难以总结步骤间的依赖关系。

现有痛点 当前的可解释性方法分为两类：注意力分析和梯度显著性分析。注意力权重不一定忠实反映预测驱动因素；梯度显著性虽然更贴近模型实际计算，但在长序列上噪声大、难以跨位置聚合。核心问题不是缺少信号，而是缺少与推理步骤对齐的可读单元。

核心矛盾 模型出错时，我们无法将最终错误归因到内部推理轨迹的哪一步出了问题——token 级别的 saliency map 太密集，无法直观地揭示步骤间的信息流断裂。

本文目标 设计一种步骤级别的诊断工具，能够追踪不同网络深度上步骤之间的影响关系，并基于诊断结果设计测试时干预来修复信息流。

切入角度 将 token 级别的 attention-gradient 影响分数通过均值池化聚合到步骤级别，形成紧凑的 step-to-step saliency map，然后逐层分析正确和错误推理轨迹的差异。

核心 idea 错误推理的根源在于信息流断裂——浅层过度关注当前步骤（Shallow Lock-in），深层逐渐丧失对思维段的注意力（Deep Decay）。通过在浅层和深层分别施加针对性干预，可以修复这些信息流缺陷。

方法详解¶

整体框架¶

Step-Saliency 是一个诊断工具，StepFlow 是基于诊断的干预方法。整体 pipeline 为：(1) 将推理序列分割为 question-thinking-summary 三段；(2) 计算 token 级 attention-gradient 影响分数并池化为 step-to-step map；(3) 逐层分析 saliency 模式，识别 Shallow Lock-in 和 Deep Decay；(4) 在解码时通过 OEB 和 SMI 两个组件修复信息流。

关键设计¶

Step-Saliency 诊断:
- 功能：将 token 级 saliency 聚合为步骤级可视化
- 核心思路：对每层每头，计算注意力权重与其梯度的乘积绝对值 \(I^{(\ell)}_{t\leftarrow k} = \frac{1}{H}\sum_h |A^{(\ell,h)}_{t,k} \cdot \frac{\partial \mathcal{L}_t}{\partial A^{(\ell,h)}_{t,k}}|\)，然后按步骤边界做均值池化，得到 step-to-step 影响矩阵
- 设计动机：token 级 saliency map 过于密集嘈杂，均值池化到步骤级别可以抑制噪声、揭示跨步骤依赖模式
Odds-Equal Bridge (OEB) — 浅层干预:
- 功能：防止浅层注意力质量坍缩到当前步骤上
- 核心思路：将 key 分为当前段 \(\mathcal{S}\)、桥接段 \(\mathcal{B}\)（早期上下文）和其他 \(\mathcal{O}\)，设定桥接段的注意力质量下界 \(\tau_\mathcal{B} = \min(\sqrt{|\mathcal{B}|/(|\mathcal{B}|+|\mathcal{S}|)}, \tau_{\max})\)，当桥接质量低于下界时，通过 KL 投影调整 logits
- 设计动机：诊断发现浅层错误轨迹几乎所有注意力都集中在当前步骤和邻居上，忽略了问题和早期推理步骤，OEB 确保桥接区域维持合理的注意力份额
Step Momentum Injection (SMI) — 深层干预:
- 功能：在深层步骤边界注入前一步的残差摘要
- 核心思路：在步骤 \(\Gamma_i\) 和 \(\Gamma_{i+1}\) 的边界，计算步骤级动量向量 \(\mathbf{m}_{\text{prev}} = \frac{1}{|\Gamma_i|}\sum_{k\in\Gamma_i}\mathbf{v}_k\)，注入到下一步第一个 token 的隐藏状态：\(\mathbf{h}'_t = \mathbf{h}_t + \alpha \mathbf{m}_{\text{prev}}\)
- 设计动机：Deep Decay 表现为深层 thinking saliency 快速衰减，summary 变得自我关注。SMI 通过在步骤边界保留一小部分前步信息，维持从早期推理到 summary 的连接

损失函数 / 训练策略¶

StepFlow 是纯测试时干预，不需要任何训练或反向传播。它在单次解码过程中修改前向传播：OEB 作用于浅层的注意力 logits，SMI 作用于深层的残差流。每个模型只需选择一个 \(\tau_{\max}\) 和 \(\alpha\)，在小验证集上调节。

实验关键数据¶

主实验¶

模型 + 方法	AIME24	AIME25	MATH-500	GPQA-D	LiveCodeBench
R1-Distill-7B baseline	54.0	39.2	92.8	49.1	37.6
R1-Distill-7B + StepFlow	62.5	43.8	93.8	57.6	47.1
R1-Distill-32B baseline	72.6	54.9	94.3	62.1	57.2
R1-Distill-32B + StepFlow	74.5	66.7	95.6	64.5	63.0
GPT-OSS-20B medium baseline	63.4	62.0	89.2	65.2	70.0
GPT-OSS-20B medium + StepFlow	66.0	69.2	90.5	70.3	79.5

消融实验¶

配置	AIME25	GPQA-D	LiveCodeBench	说明
Baseline	62.0	65.2	70.0	GPT-OSS-20B medium
+ OEB only	64.5	66.7	74.5	修复浅层 lock-in
+ SMI only	64.0	67.2	75.0	修复深层 decay
+ OEB + SMI (StepFlow)	69.2	70.3	79.5	两者互补效果最佳

关键发现¶

StepFlow 在竞赛级数学问题上提升最大（R1-32B 在 AIME25 上 +11.8），因为这些问题需要跨多步传播信息
在 LiveCodeBench 上按难度分解：Easy +3.4, Medium +13.8, Hard +14.2，越难越有效
修复的错误类型中，算术进位传播（34%）和前提遗忘（38%）占 72%，概念错误很少被修复
在匹配计算量（~1.35x）下，StepFlow 增益是延长生成的 5.7 倍；达到 StepFlow 的准确率需要 8 路 self-consistency（8x 计算量）

亮点与洞察¶

将 token 级分析提升到 step 级是关键创新，使长推理轨迹的分析变得可行且直观
诊断-干预的范式非常优雅：先用 Step-Saliency 发现问题（Shallow Lock-in / Deep Decay），再用 OEB / SMI 精准修复
不需要重训练，纯推理时干预，适用于任何开源 LRM，实用性强
计算开销仅约 1.35x，远优于多路采样投票

局限与展望¶

浅层/深层的分界需要在小验证集上调节，缺少完全自动的层范围选择方法
干预设计空间未充分探索（如 head 级别的 steering 或 value-space 投影）
Shallow Lock-in 和 Deep Decay 与最终错误之间的因果关系仍是启发性的，未被严格证明
仅对开源 LRM 有效，无法应用于黑盒 API 模型

评分¶

新颖性: ⭐⭐⭐⭐⭐ 步骤级 saliency + 诊断驱动干预是全新范式
实验充分度: ⭐⭐⭐⭐⭐ 6个benchmark、5种backbone、详细消融和计算量归一化比较
写作质量: ⭐⭐⭐⭐⭐ 诊断→干预的逻辑链清晰，图表精心设计
价值: ⭐⭐⭐⭐⭐ 对理解和改进推理模型有直接实用价值，开箱即用

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评