Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy¶
会议: ICLR 2026
arXiv: 2507.01352
代码: SynPref-40M数据集公开
领域: 对齐RLHF / 奖励建模
关键词: 奖励模型, 偏好数据策展, Human-AI协同, 数据质量, 可扩展策展
一句话总结¶
提出Human-AI协同的两阶段偏好数据策展流程:第一阶段人工验证+错误驱动检索+偏好引导LLM标注迭代8轮积累1M对,第二阶段一致性过滤扩展到26M对。训练的Skywork-Reward-V2 8B模型在RewardBench达97.8%,在7个基准上平均88.6%超越所有开源70B模型。
研究背景与动机¶
- 领域现状:奖励模型(RM)是RLHF的核心组件。开源RM在评估基准上表现不佳,无法捕捉精细人类偏好。RewardBench TOP 20中16个用相同基座/相似数据,进展停滞。
- 现有痛点:
- 根因在偏好数据集——范围窄、合成标注、质量控制不严
- 单一基准分数与下游性能不相关:RewardBench 80→90并不一致地提升其他基准
- 纯人工标注不可扩展,纯LLM标注质量不足
- 核心矛盾:高质量偏好数据需要人工但不可扩展,可扩展的LLM标注质量不足
- 核忊idea一句话:人工验证引导LLM标注+错误驱动检索+一致性过滤 = 可扩展的高质量偏好策展
方法详解¶
整体框架¶
两阶段流水线:(1) 小规模人工驱动迭代策展(8轮→~1M对) (2) 大规模自动一致性策展(→~26M对)
关键设计¶
- 阶段一:人工驱动迭代:
- 每轮三步:①训练RM并在gold验证集上评估 ②错误驱动自适应检索:根据RM弱点从未验证池中检索相似对,错误样本检索更多(k_max=8) ③偏好感知LLM标注:用gold集的相似样本作few-shot,多个强LLM自一致性聚合
- 人工验证协议:标注者可用搜索引擎+frontier LLM作为工具,但最终判断由人负责
-
8轮迭代积累~1M偏好对
-
阶段二:大规模自动策展:
- 一致性过滤:用最佳RM和独立的gold RM双重检查
- 回收机制:两个RM都不同意的偏好对,翻转chosen/rejected后重新使用,零标注成本
损失函数 / 训练策略¶
- Bradley-Terry点对式RM:\(p = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\)
- 8个模型规模:0.6B−8B,基座Qwen3+Llama-3.1
实验关键数据¶
主实验:7基准综合评估¶
| 模型 | RewardBench | RB-v2 | RM-Bench | JudgeBench | Avg |
|---|---|---|---|---|---|
| INF-ORM-70B | - | - | 75.4 | - | 73.8 |
| Nemotron-70B | - | - | - | - | 71.6 |
| Skywork-V2-Llama-8B | 96.4 | 84.1 | 92.8 | 80.0 | 85.8 |
| Skywork-V2-Llama-8B-40M | 97.8 | 86.5 | 96.0 | 83.4 | 88.6 |
消融:数据质量 vs 数量¶
| 设置 | 结果 |
|---|---|
| 12M未策展数据 | 无法超趇seed模型 |
| 290K策展数据(1.8%) | 已超趇此前SOTA 70B |
| 纯LLM策展 | 仅+0.1点 |
| 人工策展 | +2.3点 |
| 完整协议(工具+验证) | +3.2点 |
关键发现¶
- 数据质量 >> 数量:未策展12M无效,策展290K已超SOTA
- 1.7B Skywork超趇此前70B SOTA:证明数据质量可以弥补规模差距
- 纯LLM策展几乎无效:仅+0.1点,必须有人工引导
- 回收机制巧妙:翻转错误偏好对提供免费额外数据
- 风格偏置抵抗力强:RM-Bench Hard上86.5% vs baseline 54%
亮点与洞察¶
- 错误驱动检索:根据RM弱点定向检索相似样本,而非随机采样——类似主动学习的思想
- 人工验证协议的重要性:允许使用工具但人类负责最终判断,比纯人工标注提升了质量而非降低
局限性 / 可改进方向¶
- 主观偏好不展现扩展行为(客观偏好可以)
- 阶段1仍需人工,受标注资源限制
- 仅用成对Bradley-Terry,未探索点对式评分
相关工作与启发¶
- vs ArmoRM/Nemotron:这些70B模型在综合基准上不如Skywork-V2 8B,证明数据质量的决定性作用
- vs Uni-DPO/TI-DPO:这些方法改进损失函数,Skywork改进数据——两者正交可组合
- vs On-Policy DPO分析:该论文说数据选择>算法创新,Skywork从Train数据角度强化了这一观点
评分¶
- 新颖性: ⭐⭐⭐⭐ Human-AI协同策展流程设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ 7基准×8模型规模×详尽消融
- 写作质量: ⭐⭐⭐⭐ 流程描述清晰
- 价值: ⭐⭐⭐⭐⭐ 为奖励模型训练提供了完整的数据策展方案,SynPref-40M数据集开源价值巨大