跳转至

\(V_1\): Unifying Generation and Self-Verification for Parallel Reasoners

日期: 2026-03-04
arXiv: 2603.04304
代码: 无(提供详细 prompt 和训练框架描述)
领域: LLM推理
关键词: pairwise verification, test-time compute, Swiss-system tournament, parallel reasoning, code generation

一句话总结

V₁ 以配对比较替代逐点评分进行自验证,通过瑞士制赛制动态分配验证预算到最不确定的候选对,在代码生成 / 数学推理上比逐点验证高 7–10%,并提出 PairRL 统一训练框架联合优化生成与验证能力。

研究背景与动机

  1. 领域现状:Test-time compute scaling 是提升 LLM 推理能力的关键方向。常见做法是生成多个候选解后用自验证(self-verification)选最优解,但现有方法是逐点评分——模型独立给每个解打绝对分。
  2. 现有痛点:逐点自验证存在"校准崩溃"——缺乏比较参考时,模型的绝对评分跨上下文不可比(分数饱和,高分给大部分候选,失去区分力)。递归自聚合(RSA)可改善 Pass@1 但导致"多样性崩溃",Pass@N 单调下降。
  3. 核心矛盾:绝对评分需要全局一致的质量刻度,但 LLM 缺乏这种内在校准能力;而相对比较天然提供校准锚点,更适合区分质量相近的候选解。
  4. 切入角度:借鉴人类评审中"两两比较比打绝对分更可靠"的认知科学发现,系统性引入配对验证,并用瑞士制赛制优化有限预算下的比较调度。
  5. 核心 idea 一句话:用配对比较 + 瑞士制赛制替代逐点评分,实现校准鲁棒的自验证。

方法详解

整体框架

两阶段:(1) V₁-Infer(推理时)—— 生成 N 个候选解 → 瑞士制赛制配对比较 → 选最高加权胜率的解;(2) V₁-PairRL(训练时)—— 联合优化生成和配对验证能力的强化学习框架。

关键设计

  1. 配对比较评分机制

    • 对候选解对 \((s_i, s_j)\) 生成配对评分 \((r_i, r_j) \in [1,10]\)
    • 置信权重:\(w_{ij} = \max(|r_i - r_j|/9, \tau)\),评分差越大越确信
    • 加权胜率:\(\mu_i = \frac{\sum_{j \in \mathcal{N}(i)} w_{ij} v_{ij}}{\sum_{j \in \mathcal{N}(i)} w_{ij}}\)
    • 设计动机:配对比较强制相对判断,天然提供校准参考,避免绝对评分的饱和问题
  2. 瑞士制赛制预算调度

    • Phase 1 拓扑覆盖:确保每个解至少被比较 \(d_\min\) 次,随机配对 + 优先匹配欠采样节点
    • Phase 2 瑞士细化:剩余预算聚焦评分最接近的未见配对 \(\min_\text{unseen}|\mu_i - \mu_j|\),最大化 Bradley-Terry 模型下的边际信息增益
    • 设计动机:相比穷举 \(O(N^2)\) 配对,瑞士制以 \(O(N \log N)\) 预算获得近似最优排名
  3. V₁-PairRL 联合训练

    • 目标:\(J(\theta) = J_\text{Gen}(\theta) + \lambda J_\text{PairVerif}(\theta)\)
    • 生成奖励:二进制正确性 \(r_\text{gen} \in \{0,1\}\)
    • 验证奖励:\(r_\text{verif} = \frac{1}{2}\sum_{i}\mathbb{I}(|v_i - y_i| \le 0.2)(1-|v_i - y_i|)\)
    • 防"安全赌注崩溃":只有高置信判断(接近 0 或 1)才获正奖励,禁止模型学习中性 0.5
    • 使用 GRPO 优化,8 个总预算拆分为 4 个生成 + 4 个验证

实验关键数据

主实验(V₁-Infer)

基准 模型 逐点验证 V₁-Infer 提升
CodeContests GPT-OSS-20B ~66% 73.33% +7.3%
LiveCodeBench-v5 GPT-OSS-20B +8.6%
HMMT 数学 GPT-OSS-20B +10.0%
SWE-bench Lite Gemini-2.5-Flash 28.3% 33.3% +5.0%

难度分析(GPT-OSS-20B, LCB-v6)

难度 基线 Pass@1 V₁-Infer 提升
简单 ~99.3% ~99.3% ~0%
中等 +15.4%
困难 40.2% 63.9% +23.7%

关键发现

  • 难题获益最大:困难问题提升 23.7%,说明配对比较在候选质量相近时最有价值
  • 与聚合方法正交:RSA + V₁-Infer 可达 93.3%,收敛更快
  • V₁-PairRL 提升基础生成能力:联合训练后 Pass@1 本身也提升 2.7–8.7%

亮点与洞察

  • 瑞士制赛制用于 LLM 验证:巧妙借鉴国际象棋锦标赛的调度策略——O(N log N) 次比较近似最优排名,比穷举高效一个数量级。
  • 配对比较天然校准:这个洞察可能启发其他需要排序/选择的场景(如 RLHF 中的奖励建模、Benchmark 评测)。
  • 联合训练消除分布偏移:生成器和验证器共同演化,验证器始终在当前策略的分布上训练,避免离线训练的 OOD 问题。

局限性 / 可改进方向

  • 配对比较的 token 开销约是逐点的 2 倍(需同时展示两个解),对长解不友好
  • 瑞士制假设解之间的质量可以用标量分数比较,对部分正确的结构化输出可能不适用
  • 目前只在代码和数学上验证,自然语言生成(如写作)的主观任务效果未知

相关工作与启发

  • vs Best-of-N:BoN 用逐点评分选最好的,V₁ 用配对比较。在候选质量相近时 V₁ 优势明显。
  • vs RSA:RSA 通过递归聚合提升 Pass@1 但牺牲多样性;V₁ 保持多样性的同时获得更好选择,且两者可组合。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 配对自验证 + 瑞士制调度的组合非常新颖且有理论支撑
  • 实验充分度: ⭐⭐⭐⭐ 覆盖代码/数学/SWE 多场景,消融深入,但数学评测规模偏小
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法推导严谨
  • 价值: ⭐⭐⭐⭐⭐ 对 test-time compute scaling 研究有直接影响,配对比较思路通用性强