DeepPrune: Parallel Scaling without Inter-Trace Redundancy¶

会议: ACL 2026
arXiv: 2510.08483
代码: https://deepprune.github.io/
领域: 推理效率 / 并行扩展
关键词: 并行推理, CoT剪枝, 推理冗余, 答案等价预测, 推理效率

一句话总结¶

本文提出 DeepPrune，通过训练专门的判断模型从部分推理轨迹预测答案等价性，结合在线贪心聚类算法动态剪枝冗余的并行 CoT 路径，在保持竞争准确率（3 个百分点以内）的同时减少 65.73%-88.50% 的 token 消耗。

领域现状：并行扩展（如 best-of-n 采样）通过同时生成多条推理轨迹来增强 LLM 推理能力，总 token 消耗可达 100M+。现有高效推理方法主要关注序列扩展的过度思考问题，对并行扩展的效率研究较少。

现有痛点：(1) 超过 80% 的并行推理轨迹产生相同的最终答案，代表了大量浪费的计算；(2) 基于置信度的早停方法无法减少轨迹间冗余，且有过早终止正确推理的风险；(3) 浅层语义相似度（如 SentenceBERT）无法从早期推理阶段预测最终答案等价性。

核心矛盾：并行扩展的收益来自答案多样性（少数不同答案中可能包含正确答案），但绝大多数（80%+）并行轨迹产生相同答案，多样性极低。

本文目标：在保留答案多样性的前提下，主动剪枝冗余的并行推理轨迹。

切入角度：训练专门的判断模型来理解推理过程的深层语义，从部分推理轨迹预测两条轨迹是否最终会得到相同答案。

核心 idea：早期发现答案等价 → 保留多样轨迹 + 剪枝冗余轨迹 → 高效并行扩展。

DeepPrune 包含两个组件：(1) 判断模型——从部分推理轨迹预测两条轨迹的答案是否等价（AUROC 0.7072）；(2) 在线贪心聚类——在推理进行中，将轨迹动态聚类为答案等价组，剪枝每组中的冗余轨迹，仅保留一条代表轨迹。

答案等价判断模型:
- 功能：从部分推理轨迹预测最终答案是否相同
- 核心思路：基于 Qwen3-4B 训练，使用 OOD 数据（AIME 2022/2023 和 MATH 500）+ 过采样技术平衡正负样本。输入为两条轨迹的前 N 个 token，输出为答案等价概率
- 设计动机：浅层相似度方法（AUROC=0.58）和通用 LLM（AUROC=0.66）都不够准确，需要专门训练的模型理解推理过程
在线贪心聚类与动态剪枝:
- 功能：在推理过程中实时剪枝冗余路径
- 核心思路：维护答案等价组的集合，每产生新轨迹片段就用判断模型检查是否与已有组等价。如果等价则剪枝（停止生成），如果不等价则创建新组。保留每组的一条代表轨迹继续生成
- 设计动机：在线处理比事后剪枝节省更多计算，贪心策略在实践中平衡了效率和多样性
OOD 泛化训练策略:
- 功能：确保判断模型在未见过的推理模型上也有效
- 核心思路：在 AIME 2022/2023 和 MATH 500 上训练（与评估数据 AIME 2024/2025 不重叠），泛化到不同推理模型生成的轨迹
- 设计动机：实际部署中不可能为每个新推理模型重新训练判断模型

判断模型使用二分类交叉熵损失，过采样少数类（不等价对）平衡数据。训练数据来自多个推理模型的并行轨迹对。

与标准共识采样的对比（LLaDA 推理模型）