Verbosity-Aware Rationale Reduction: Effective Reduction of Redundant Rationale¶

会议: ACL 2025
arXiv: 2412.21006
代码: 无
领域: NLP / 推理效率
关键词: 推理路径缩减, 冗余句子, 冗余度, CoT微调, token节省

一句话总结¶

提出 VARR 框架，以句子为单位并利用基于似然度的"冗余度（verbosity）"标准识别和移除推理路径中的冗余句子，在多种推理任务上平均提升 7.71% 准确率同时减少 19.87% 的 token 生成。

LLM 通过生成冗长的中间推理步骤来提升最终答案质量，但不可避免地增加了推理成本和延迟。更关键的是，使用完整推理路径微调 LLM 并不一定保证性能提升——部分推理句子可能是冗余甚至有害的。

已有推理路径缩减方法存在两大问题：（1）以 token 为单位进行缩减（如 ICoT-SI），缺乏语言学合理性，可能破坏句子语义；（2）缺乏有原则的标准判断哪些内容应被移除，多为启发式方法。这些方法主要在简单算术任务（如多位数乘法）上验证，泛化性不足。

VARR 包含三个阶段：（1）预热阶段用完整推理路径正常 CoT 微调；（2）冗余度评估阶段，从前向后检查每个推理句子；（3）根据冗余度标准移除句子后继续训练。

早期推理句子更冗余的经验发现：通过计算移除不同位置句子后答案的 NLL 变化，发现移除前部句子对 NLL 影响最小（marginal NLL difference），说明早期句子对生成正确答案的贡献最小。这为"从前向后移除"提供了经验依据。
冗余度（Verbosity）定义：verbosity(y_g) = log(p(y_g|R',x) / p(y_g|R,x))。本质是 KL 散度之差，衡量移除句子 r_i 后正确答案概率是否提升。 verbosity ≥ 0 意味着移除后正确答案概率不降，该句子可安全移除。
用错误答案增强（VARR+）：引入 verbosity(y_w) = (1/K) Σ log(p(y_w^k|R',x) / p(y_w^k|R,x))，用 in-batch 负样本采样 K 个错误答案。当 verbosity(y_w) - verbosity(y_g) ≤ 0 时，说明移除该句子使正确答案概率增益大于错误答案概率增益，进一步确认可安全移除。
线性移除调度：r(t) = ⌊N_t · (t/T)⌋，随训练进行逐步增加可移除句子数量上限，但实际移除受冗余度标准约束（不强制移除）。

标准 CoT 训练损失 -log p(y_g, R|x)。预热阶段占 10% 总训练步。每个 epoch 开始时重新初始化优化器以稳定训练。

方法	MathQA	GSM8K	CommonQA	TriviaQA	StrategyQA
Explicit-CoT	55.84	55.26	84.33	82.94	74.70
ICoT-SI	35.84	28.27	67.82	77.09	61.33
Coconut	-	-	-	-	-
VARR+	56.95	54.98	89.56	83.45	78.19

（VARR+ 平均提升 7.71%，token 减少 19.87%）