V₀.₅: Generalist Value Model as a Prior for Sparse RL Rollouts¶

日期: 2026-03-11
arXiv: 2603.10848
代码: now-join-us.github.io/V0_5
领域: LLM推理 / 强化学习
关键词: RLVR, value model, advantage baseline, shrinkage estimator, GRPO

一句话总结¶

提出 V₀.₅ 框架，将预训练的通用价值模型（V₀）作为统计先验与稀疏在线 rollout 的经验均值自适应融合，通过实时假设检验和动态预算分配构建鲁棒的优势基线，在 6 个数学推理基准上相比 GRPO/DAPO 提升 10%+。

研究背景与动机¶

领域现状: RLVR（基于可验证奖励的强化学习）是 LLM 后训练增强推理能力的标准范式，GRPO 用组内经验均值作为优势基线。
现有痛点: 长推理任务计算昂贵迫使使用稀疏 rollout（小 group size），但稀疏采样导致经验均值方差爆炸；PPO 的参数化价值模型需要同步训练且 OOD 泛化差。
核心矛盾: 通用价值模型 V₀ 能零样本估计任意模型的期望表现，但可能产生幻觉/偏差。如何安全地融合静态先验和稀疏在线观测？
核心 idea: 收缩估计器（shrinkage estimator）融合先验和经验均值，MSE 正交分解为观测方差和先验偏差；用假设检验实时判断先验可靠性，可疑时隔离先验并动态增加 rollout 预算。

方法详解¶

整体框架¶

两个耦合机制：(1) 经验收缩融合——安全融合价值模型先验与稀疏 rollout (2) OSLA 动态预算分配——根据先验-观测冲突程度按需增加 rollout。

关键设计¶

经验收缩融合: 基线 \(\hat{\mu}^* = (1-w) \cdot \bar{r}_k + w \cdot V\)，权重 \(w\) 由 MSE 最小化确定。正部截断等价于假设检验：先验一致时大量利用先验抑制方差；检测到严重冲突（幻觉）时迅速隔离先验回退到经验均值。偏差有界 \(|\text{Bias}| \leq 1/\sqrt{k}\)。
OSLA 顺序预算分配: 将基线估计重构为连续动态调度问题。初始用极稀疏 rollout (\(k_{\text{init}}=4\))，当假设检验拒绝先验时自动追加 rollout 预算。按需分配而非预先固定 group size。
实时假设检验: 用最大噪声界 \(1/\sqrt{k}\) 吸收正常波动。经验均值与先验的差异超过此界时判定先验不可靠。

实验关键数据¶

主实验（6 个数学推理基准，mean@16）¶

方法	Group Size	性能（6 基准平均）
GRPO	G=16	baseline
DAPO	G=16	~GRPO
V₀.₅	\(k_{\text{init}}=4\)	+10%+

稀疏性消融（无 OSLA）¶

固定 Group Size	vs GRPO(G=16)
k=8 + V₀先验	超越 GRPO
k=4 + V₀先验	超越 GRPO
k=2 + V₀先验	训练不收敛
k=1 + V₀先验	训练不收敛

关键发现¶

仅融合先验（k=4/8，无 OSLA）就已超越标准 GRPO(G=16)——验证收缩估计器的核心价值
V₀.₅ 梯度范数更低更稳定——Theorem 3.1 从理论解释了 MSE 降低如何抑制梯度方差爆炸
策略熵衰减更慢——低方差梯度使模型避免过早收敛到局部最优，保持探索能力
k≤2 时失败——二值奖励空间的离散量化间隙超过假设检验容忍半径

亮点与洞察¶

将基线估计形式化为统计估计问题: 收缩估计器 + 假设检验 + 动态预算分配，理论优雅
实用门槛低: 通用价值模型冻结不训练，即插即用到现有 GRPO pipeline
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

通用价值模型 V₀ 的质量直接决定先验质量，对未知领域可能失效
仅验证数学推理，代码生成/对话等其他 RLVR 场景未测试
二值奖励空间下 k≤2 不可行，连续奖励场景可能更好
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐⭐ 收缩估计器+假设检验融合先验的思路非常优雅
实验充分度: ⭐⭐⭐⭐ 6 基准+稀疏性消融+梯度分析
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰
价值: ⭐⭐⭐⭐⭐ 对 RLVR 稀疏采样问题有直接实用价值