跳转至

DistriVoting: 分布引导的推理模型置信度校准

日期: 2026-03-04
arXiv: 2603.03872
代码: 无
领域: LLM推理
关键词: test-time scaling, confidence calibration, GMM, voting, reasoning model

一句话总结

DistriVoting 利用大推理模型(LRM)生成多条轨迹时正确/错误答案的置信度呈双峰分布的特性,通过 GMM 分离正/负分布后加权投票,在 Budget=128 下将 DeepSeek-R1-8B 跨 5 个数学基准的平均准确率从 73.09%(self-consistency)提升至 77.84%。

研究背景与动机

  1. 领域现状:LRM(如 DeepSeek-R1、Qwen3)通过 test-time scaling(TTS)采样多条推理链并投票选答案,self-consistency(SC)和 weighted SC(WSC)是标准方法。
  2. 现有痛点:模型内部置信度与正确性相关但存在 overlap——有些高置信度轨迹实际是错误的("confidently wrong"),导致投票被误导。先前工作发现正/负轨迹置信度呈不同分布,但这一分布信息未被充分利用。
  3. 核心矛盾:直接用置信度加权投票(WSC)只利用了点估计,没有利用群体分布特征;当"confidently wrong"占比较高时,WSC 退化到接近 SC 的水平。
  4. 本文要解决什么? (1) 利用置信度的分布特征过滤高置信度错误轨迹;(2) 在推理时动态增大正/负分布的分离度以改善后续投票。
  5. 切入角度:将置信度建模为二成分 GMM(正/负分布),用 GMM 过滤器选择正分布轨迹投票;同时提出 SelfStepConf(SSC),在生成过程中监测逐步置信度,当检测到置信度骤降时注入 reflection token 促使模型自我修正。
  6. 核心 idea 一句话:用 GMM 分解置信度分布选正集投票 + step-level 自适应 reflection 增大正负分离。

方法详解

整体框架

输入:一道数学题 + Budget N 次采样 → N 条推理轨迹各含答案和置信度 → DistriVoting 两阶段过滤投票 → 最终答案。可选 SSC 模块在生成时介入。

关键设计

  1. 轨迹置信度计算:

    • 对每条轨迹的生成 token 计算负对数概率的平均:\(C_{traj} = -\frac{1}{N_G \times k}\sum_{i \in G}\sum_{j=1}^{k}\log P_i(j)\)
    • 其中 \(G\) 为生成 token 位置,\(k\) 为 top-k logprob(使值可比较)
  2. DistriVoting — 两阶段过滤投票:

    • GMM Filter:将 N 条轨迹的置信度拟合二成分 GMM,分解为正分布(均值较高,可能正确)和负分布(均值较低,可能错误),只保留正分布对应的轨迹
    • Reject Filter:用负分布轨迹的投票答案作为"拒绝集",从正分布中进一步移除投向拒绝答案的轨迹,消除残余的高置信度错误
    • HierVoting:将置信度区间分为 \(N_C=10\) 个子区间,在每个区间内加权多数投票,再聚合各区间的答案——减少极端置信值的主导效应
  3. SelfStepConf (SSC) — 动态推理干预:

    • 做什么:在 token 生成过程中监控逐步置信度,在置信度骤降时注入 reflection token(如 "wait")
    • 核心思路:用 EMA 维护自适应阈值 \(\tau_{conf}\),当 \(\Delta_{conf} < \delta\) 且呈下降趋势时,通过 swap logit probabilities 注入反思 token
    • 设计动机:增大正/负分布的分离度,使下游 GMM 过滤更精确;运行时仅增加 2.31% 开销

损失函数 / 训练策略

无训练,纯推理时方法。适用于任何支持 logprob 输出的 LRM。

实验关键数据

主实验

Budget=128,64 重复(DeepSeek-R1-8B)跨 5 个数学基准:

方法 HMMT25 GPQA-D AIME24 AIME25 BRUMO25 平均
SC 82.98 62.64 89.69 84.11 46.02 73.09
WSC 83.28 62.70 89.95 84.27 46.30 73.30
MoB 83.93 67.73 91.15 87.06 46.62 75.30
DIS-GMM* 84.95 70.63 93.23 86.64 94.27 77.84

在 Qwen3-32B 上也观察到类似提升:平均从 73.85%(SC) → 76.53%(DIS-GMM*)。

消融实验

聚类方法 投票准确率 每次迭代延迟
GMM 76.95% 0.34ms
K-Means 75.19% 0.60ms
MeanShift 75.50% 1.85ms
Top50% 75.10% 0.09ms

关键发现

  • GMM 最优:既精度最高又速度快(0.34ms/iter),因为 GMM 天然适合建模双峰对称分布
  • Budget 越大优势越大:Budget=16 时开始显著领先,Budget=256 时达 78.18%
  • SSC 对中等能力模型效果最好:较弱模型本身推理链质量低,reflection 难以修正;较强模型自身不常出错——呈倒 U 型
  • 跨 16 个模型泛化:从 Qwen3-0.6B 到 32B、DeepSeek-R1 系列全面验证

亮点与洞察

  • 巧妙利用置信度的"群体信号":不只看单条轨迹的置信度,而是分析整批轨迹的分布特征——GMM 分解后的正/负分离是可靠的信号
  • SSC 几乎零成本:仅 2.31% 运行时开销就能增大分布分离度,本质上是让模型"多想一步"——可简单集成到任何采样管道中
  • Reject Filter 设计巧妙:用错误轨迹的共识答案反向排除正分布中的"叛徒",类似于对抗性投票

局限性 / 可改进方向

  • 需要多次采样:Budget=128 的计算成本较高,对实时应用不友好
  • GMM 双峰假设:当正/负分布高度重叠或非高斯时,GMM 可能过拟合
  • SSC 对强模型增益有限:GPT-5 级别的模型可能不需要 step-level 干预

相关工作与启发

  • vs Self-Consistency (SC):SC 是纯多数投票,忽略置信度;DistriVoting 利用分布信号过滤噪声
  • vs Weighted SC (WSC):WSC 用置信度加权但没有过滤高置信错误;DistriVoting 显式分离正/负分布
  • vs Mixture of Bootstraps (MoB):MoB 用 bootstrap 重采样估计不确定性,DistriVoting 直接建模分布结构

评分

  • 新颖性: ⭐⭐⭐⭐ GMM 分布过滤 + SSC 干预的组合有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 16 个模型、5 个基准、详细消融、Budget scaling 分析
  • 写作质量: ⭐⭐⭐⭐ 公式清晰,动机阐述逻辑完整
  • 价值: ⭐⭐⭐⭐ 对 test-time scaling 的答案选择问题有实用价值