DistriVoting: 分布引导的推理模型置信度校准¶
日期: 2026-03-04
arXiv: 2603.03872
代码: 无
领域: LLM推理
关键词: test-time scaling, confidence calibration, GMM, voting, reasoning model
一句话总结¶
DistriVoting 利用大推理模型(LRM)生成多条轨迹时正确/错误答案的置信度呈双峰分布的特性,通过 GMM 分离正/负分布后加权投票,在 Budget=128 下将 DeepSeek-R1-8B 跨 5 个数学基准的平均准确率从 73.09%(self-consistency)提升至 77.84%。
研究背景与动机¶
- 领域现状:LRM(如 DeepSeek-R1、Qwen3)通过 test-time scaling(TTS)采样多条推理链并投票选答案,self-consistency(SC)和 weighted SC(WSC)是标准方法。
- 现有痛点:模型内部置信度与正确性相关但存在 overlap——有些高置信度轨迹实际是错误的("confidently wrong"),导致投票被误导。先前工作发现正/负轨迹置信度呈不同分布,但这一分布信息未被充分利用。
- 核心矛盾:直接用置信度加权投票(WSC)只利用了点估计,没有利用群体分布特征;当"confidently wrong"占比较高时,WSC 退化到接近 SC 的水平。
- 本文要解决什么? (1) 利用置信度的分布特征过滤高置信度错误轨迹;(2) 在推理时动态增大正/负分布的分离度以改善后续投票。
- 切入角度:将置信度建模为二成分 GMM(正/负分布),用 GMM 过滤器选择正分布轨迹投票;同时提出 SelfStepConf(SSC),在生成过程中监测逐步置信度,当检测到置信度骤降时注入 reflection token 促使模型自我修正。
- 核心 idea 一句话:用 GMM 分解置信度分布选正集投票 + step-level 自适应 reflection 增大正负分离。
方法详解¶
整体框架¶
输入:一道数学题 + Budget N 次采样 → N 条推理轨迹各含答案和置信度 → DistriVoting 两阶段过滤投票 → 最终答案。可选 SSC 模块在生成时介入。
关键设计¶
-
轨迹置信度计算:
- 对每条轨迹的生成 token 计算负对数概率的平均:\(C_{traj} = -\frac{1}{N_G \times k}\sum_{i \in G}\sum_{j=1}^{k}\log P_i(j)\)
- 其中 \(G\) 为生成 token 位置,\(k\) 为 top-k logprob(使值可比较)
-
DistriVoting — 两阶段过滤投票:
- GMM Filter:将 N 条轨迹的置信度拟合二成分 GMM,分解为正分布(均值较高,可能正确)和负分布(均值较低,可能错误),只保留正分布对应的轨迹
- Reject Filter:用负分布轨迹的投票答案作为"拒绝集",从正分布中进一步移除投向拒绝答案的轨迹,消除残余的高置信度错误
- HierVoting:将置信度区间分为 \(N_C=10\) 个子区间,在每个区间内加权多数投票,再聚合各区间的答案——减少极端置信值的主导效应
-
SelfStepConf (SSC) — 动态推理干预:
- 做什么:在 token 生成过程中监控逐步置信度,在置信度骤降时注入 reflection token(如 "wait")
- 核心思路:用 EMA 维护自适应阈值 \(\tau_{conf}\),当 \(\Delta_{conf} < \delta\) 且呈下降趋势时,通过 swap logit probabilities 注入反思 token
- 设计动机:增大正/负分布的分离度,使下游 GMM 过滤更精确;运行时仅增加 2.31% 开销
损失函数 / 训练策略¶
无训练,纯推理时方法。适用于任何支持 logprob 输出的 LRM。
实验关键数据¶
主实验¶
Budget=128,64 重复(DeepSeek-R1-8B)跨 5 个数学基准:
| 方法 | HMMT25 | GPQA-D | AIME24 | AIME25 | BRUMO25 | 平均 |
|---|---|---|---|---|---|---|
| SC | 82.98 | 62.64 | 89.69 | 84.11 | 46.02 | 73.09 |
| WSC | 83.28 | 62.70 | 89.95 | 84.27 | 46.30 | 73.30 |
| MoB | 83.93 | 67.73 | 91.15 | 87.06 | 46.62 | 75.30 |
| DIS-GMM* | 84.95 | 70.63 | 93.23 | 86.64 | 94.27 | 77.84 |
在 Qwen3-32B 上也观察到类似提升:平均从 73.85%(SC) → 76.53%(DIS-GMM*)。
消融实验¶
| 聚类方法 | 投票准确率 | 每次迭代延迟 |
|---|---|---|
| GMM | 76.95% | 0.34ms |
| K-Means | 75.19% | 0.60ms |
| MeanShift | 75.50% | 1.85ms |
| Top50% | 75.10% | 0.09ms |
关键发现¶
- GMM 最优:既精度最高又速度快(0.34ms/iter),因为 GMM 天然适合建模双峰对称分布
- Budget 越大优势越大:Budget=16 时开始显著领先,Budget=256 时达 78.18%
- SSC 对中等能力模型效果最好:较弱模型本身推理链质量低,reflection 难以修正;较强模型自身不常出错——呈倒 U 型
- 跨 16 个模型泛化:从 Qwen3-0.6B 到 32B、DeepSeek-R1 系列全面验证
亮点与洞察¶
- 巧妙利用置信度的"群体信号":不只看单条轨迹的置信度,而是分析整批轨迹的分布特征——GMM 分解后的正/负分离是可靠的信号
- SSC 几乎零成本:仅 2.31% 运行时开销就能增大分布分离度,本质上是让模型"多想一步"——可简单集成到任何采样管道中
- Reject Filter 设计巧妙:用错误轨迹的共识答案反向排除正分布中的"叛徒",类似于对抗性投票
局限性 / 可改进方向¶
- 需要多次采样:Budget=128 的计算成本较高,对实时应用不友好
- GMM 双峰假设:当正/负分布高度重叠或非高斯时,GMM 可能过拟合
- SSC 对强模型增益有限:GPT-5 级别的模型可能不需要 step-level 干预
相关工作与启发¶
- vs Self-Consistency (SC):SC 是纯多数投票,忽略置信度;DistriVoting 利用分布信号过滤噪声
- vs Weighted SC (WSC):WSC 用置信度加权但没有过滤高置信错误;DistriVoting 显式分离正/负分布
- vs Mixture of Bootstraps (MoB):MoB 用 bootstrap 重采样估计不确定性,DistriVoting 直接建模分布结构
评分¶
- 新颖性: ⭐⭐⭐⭐ GMM 分布过滤 + SSC 干预的组合有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 16 个模型、5 个基准、详细消融、Budget scaling 分析
- 写作质量: ⭐⭐⭐⭐ 公式清晰,动机阐述逻辑完整
- 价值: ⭐⭐⭐⭐ 对 test-time scaling 的答案选择问题有实用价值