DistriVoting: 分布引导的推理模型置信度校准¶

日期: 2026-03-04
arXiv: 2603.03872
代码: 无
领域: LLM推理
关键词: test-time scaling, confidence calibration, GMM, voting, reasoning model

一句话总结¶

DistriVoting 利用大推理模型（LRM）生成多条轨迹时正确/错误答案的置信度呈双峰分布的特性，通过 GMM 分离正/负分布后加权投票，在 Budget=128 下将 DeepSeek-R1-8B 跨 5 个数学基准的平均准确率从 73.09%（self-consistency）提升至 77.84%。

研究背景与动机¶

领域现状：LRM（如 DeepSeek-R1、Qwen3）通过 test-time scaling（TTS）采样多条推理链并投票选答案，self-consistency（SC）和 weighted SC（WSC）是标准方法。
现有痛点：模型内部置信度与正确性相关但存在 overlap——有些高置信度轨迹实际是错误的（"confidently wrong"），导致投票被误导。先前工作发现正/负轨迹置信度呈不同分布，但这一分布信息未被充分利用。
核心矛盾：直接用置信度加权投票（WSC）只利用了点估计，没有利用群体分布特征；当"confidently wrong"占比较高时，WSC 退化到接近 SC 的水平。
本文要解决什么？ (1) 利用置信度的分布特征过滤高置信度错误轨迹；(2) 在推理时动态增大正/负分布的分离度以改善后续投票。
切入角度：将置信度建模为二成分 GMM（正/负分布），用 GMM 过滤器选择正分布轨迹投票；同时提出 SelfStepConf（SSC），在生成过程中监测逐步置信度，当检测到置信度骤降时注入 reflection token 促使模型自我修正。
核心 idea 一句话：用 GMM 分解置信度分布选正集投票 + step-level 自适应 reflection 增大正负分离。

方法详解¶

整体框架¶

输入：一道数学题 + Budget N 次采样 → N 条推理轨迹各含答案和置信度 → DistriVoting 两阶段过滤投票 → 最终答案。可选 SSC 模块在生成时介入。

关键设计¶

轨迹置信度计算:
- 对每条轨迹的生成 token 计算负对数概率的平均：\(C_{traj} = -\frac{1}{N_G \times k}\sum_{i \in G}\sum_{j=1}^{k}\log P_i(j)\)
- 其中 \(G\) 为生成 token 位置，\(k\) 为 top-k logprob（使值可比较）
DistriVoting — 两阶段过滤投票:
- GMM Filter：将 N 条轨迹的置信度拟合二成分 GMM，分解为正分布（均值较高，可能正确）和负分布（均值较低，可能错误），只保留正分布对应的轨迹
- Reject Filter：用负分布轨迹的投票答案作为"拒绝集"，从正分布中进一步移除投向拒绝答案的轨迹，消除残余的高置信度错误
- HierVoting：将置信度区间分为 \(N_C=10\) 个子区间，在每个区间内加权多数投票，再聚合各区间的答案——减少极端置信值的主导效应
SelfStepConf (SSC) — 动态推理干预:
- 做什么：在 token 生成过程中监控逐步置信度，在置信度骤降时注入 reflection token（如 "wait"）
- 核心思路：用 EMA 维护自适应阈值 \(\tau_{conf}\)，当 \(\Delta_{conf} < \delta\) 且呈下降趋势时，通过 swap logit probabilities 注入反思 token
- 设计动机：增大正/负分布的分离度，使下游 GMM 过滤更精确；运行时仅增加 2.31% 开销

损失函数 / 训练策略¶

无训练，纯推理时方法。适用于任何支持 logprob 输出的 LRM。

实验关键数据¶

主实验¶

Budget=128，64 重复（DeepSeek-R1-8B）跨 5 个数学基准：

方法	HMMT25	GPQA-D	AIME24	AIME25	BRUMO25	平均
SC	82.98	62.64	89.69	84.11	46.02	73.09
WSC	83.28	62.70	89.95	84.27	46.30	73.30
MoB	83.93	67.73	91.15	87.06	46.62	75.30
DIS-GMM*	84.95	70.63	93.23	86.64	94.27	77.84

在 Qwen3-32B 上也观察到类似提升：平均从 73.85%(SC) → 76.53%(DIS-GMM*)。

消融实验¶

聚类方法	投票准确率	每次迭代延迟
GMM	76.95%	0.34ms
K-Means	75.19%	0.60ms
MeanShift	75.50%	1.85ms
Top50%	75.10%	0.09ms

关键发现¶

GMM 最优：既精度最高又速度快（0.34ms/iter），因为 GMM 天然适合建模双峰对称分布
Budget 越大优势越大：Budget=16 时开始显著领先，Budget=256 时达 78.18%
SSC 对中等能力模型效果最好：较弱模型本身推理链质量低，reflection 难以修正；较强模型自身不常出错——呈倒 U 型
跨 16 个模型泛化：从 Qwen3-0.6B 到 32B、DeepSeek-R1 系列全面验证

亮点与洞察¶

巧妙利用置信度的"群体信号"：不只看单条轨迹的置信度，而是分析整批轨迹的分布特征——GMM 分解后的正/负分离是可靠的信号
SSC 几乎零成本：仅 2.31% 运行时开销就能增大分布分离度，本质上是让模型"多想一步"——可简单集成到任何采样管道中
Reject Filter 设计巧妙：用错误轨迹的共识答案反向排除正分布中的"叛徒"，类似于对抗性投票

局限性 / 可改进方向¶

需要多次采样：Budget=128 的计算成本较高，对实时应用不友好
GMM 双峰假设：当正/负分布高度重叠或非高斯时，GMM 可能过拟合
SSC 对强模型增益有限：GPT-5 级别的模型可能不需要 step-level 干预

评分¶

新颖性: ⭐⭐⭐⭐ GMM 分布过滤 + SSC 干预的组合有创意
实验充分度: ⭐⭐⭐⭐⭐ 16 个模型、5 个基准、详细消融、Budget scaling 分析
写作质量: ⭐⭐⭐⭐ 公式清晰，动机阐述逻辑完整
价值: ⭐⭐⭐⭐ 对 test-time scaling 的答案选择问题有实用价值