Segment-Level Attribution for Selective Learning of Long Reasoning Traces¶

会议: ICLR2026
arXiv: 2602.00425
代码: GitHub
领域: llm_reasoning
关键词: reasoning trace, integrated gradients, selective SFT, segment attribution, CoT compression

一句话总结¶

用Integrated Gradients计算长推理链中每个segment对最终答案的归因强度和方向一致性，识别重要segment进行选择性SFT，相比全CoT训练提升准确率达4.7%同时缩短输出18%。

背景与动机¶

大推理模型(LRM)生成数千token的CoT，但仅少部分真正对答案预测有贡献，大量冗余重复/截断内容
对冗余CoT做全量SFT会使模型学习冗长无信息模式，浪费学习能力甚至降低性能
现有压缩方法token-level分析忽略语义完整性，segment-level的困惑度/熵指标与重要性不完全一致
困惑度方法存在假阳性（高估过渡文本）和假阴性（低估验证/中间结论）问题
需要直接度量segment对正确答案预测的因果贡献

方法¶

Segment分割: 用transition关键词（"\n\nWait", "\n\nAlternatively"等）将长CoT分割为语义片段。

Integrated Gradients归因: 对每个token计算IG值（从padding baseline到实际embedding的路径积分），衡量其对正确答案概率的贡献。

两个Segment-level指标: - Attribution Strength: \(\text{Strength}(S) = \sum|IG(o_n)| / \sqrt{N}\)，衡量影响量级(√N归一化避免长度偏差) - Direction Consistency: \(\text{Consistency}(S) = |\sum IG(o_n)| / \sum|IG(o_n)|\)，衡量正负贡献一致性。极高一致性=浅层推理，中等一致性=反思性推理

重要Segment选择: 取累计归因强度达τ=70%的top segment，再过滤掉一致性>β=0.8的浅层segment。约33%的segment被标为重要(占45% token)。

Selective SFT: 仅在重要segment上计算loss，不重要segment的loss被mask为0，保留完整CoT上下文。

实验¶

模型	方法	Overall Acc	输出长度
R1-Distill-Qwen-1.5B	Full SFT	44.8	16520
R1-Distill-Qwen-1.5B	Segment Selective	46.9(+4.7%)	13506(-18%)
R1-Distill-Qwen-7B	Full SFT	62.1	9693
R1-Distill-Qwen-7B	Segment Selective	64.5(+3.9%)	8499(-12%)
Qwen2.5-7B-Instruct	Full SFT	44.2	10317
Qwen2.5-7B-Instruct	Segment Selective	45.6(+3.2%)	9852(-5%)

关键发现: (1) 30-40%的segment贡献80%+的总归因，验证大量冗余; (2) 重要segment具有更低困惑度/熵，不重要segment更多重复(高BLEU)和截断(49%); (3) Selective SFT一致优于全量SFT和剪枝方法; (4) 在AIME24等OOD难题上提升最显著(+13.3%); (5) 该方法可泛化到RL场景。

亮点¶

用IG归因直接度量segment对答案的因果贡献，比PPL/熵等间接指标更可靠
方向一致性(consistency)指标设计巧妙：区分浅层确认vs反思性推理
Selective SFT同时提升准确率和效率（缩短输出），双赢
分析透彻：验证了不重要segment确实对应重复/截断/废话

局限¶

IG计算需多步插值前向传播，计算开销较大（虽是一次性成本）
关键词分割方式较简单，可能不适应所有推理风格
仅在数学推理数据集上验证，对代码生成/自然语言推理的效果未知
τ和β阈值需在验证集上搜索，增加调参成本

评分¶

新颖性: ⭐⭐⭐⭐ (IG+segment归因+selective SFT组合新颖)
实验充分度: ⭐⭐⭐⭐ (多模型+ID/OOD+消融充分)
写作质量: ⭐⭐⭐⭐ (分析细致，可视化好)
价值: ⭐⭐⭐⭐ (对长推理链训练有直接工程价值)

Segment-Level Attribution for Selective Learning of Long Reasoning Traces¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限¶

相关工作¶

评分¶