跳转至

Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy

会议: ICLR 2026
arXiv: 2507.01352
代码: SynPref-40M数据集公开
领域: 对齐RLHF / 奖励建模
关键词: 奖励模型, 偏好数据策展, Human-AI协同, 数据质量, 可扩展策展

一句话总结

提出Human-AI协同的两阶段偏好数据策展流程:第一阶段人工验证+错误驱动检索+偏好引导LLM标注迭代8轮积累1M对,第二阶段一致性过滤扩展到26M对。训练的Skywork-Reward-V2 8B模型在RewardBench达97.8%,在7个基准上平均88.6%超越所有开源70B模型。

研究背景与动机

  1. 领域现状:奖励模型(RM)是RLHF的核心组件。开源RM在评估基准上表现不佳,无法捕捉精细人类偏好。RewardBench TOP 20中16个用相同基座/相似数据,进展停滞。
  2. 现有痛点
  3. 根因在偏好数据集——范围窄、合成标注、质量控制不严
  4. 单一基准分数与下游性能不相关:RewardBench 80→90并不一致地提升其他基准
  5. 纯人工标注不可扩展,纯LLM标注质量不足
  6. 核心矛盾:高质量偏好数据需要人工但不可扩展,可扩展的LLM标注质量不足
  7. 核忊idea一句话:人工验证引导LLM标注+错误驱动检索+一致性过滤 = 可扩展的高质量偏好策展

方法详解

整体框架

两阶段流水线:(1) 小规模人工驱动迭代策展(8轮→~1M对) (2) 大规模自动一致性策展(→~26M对)

关键设计

  1. 阶段一:人工驱动迭代:
  2. 每轮三步:①训练RM并在gold验证集上评估 ②错误驱动自适应检索:根据RM弱点从未验证池中检索相似对,错误样本检索更多(k_max=8) ③偏好感知LLM标注:用gold集的相似样本作few-shot,多个强LLM自一致性聚合
  3. 人工验证协议:标注者可用搜索引擎+frontier LLM作为工具,但最终判断由人负责
  4. 8轮迭代积累~1M偏好对

  5. 阶段二:大规模自动策展:

  6. 一致性过滤:用最佳RM和独立的gold RM双重检查
  7. 回收机制:两个RM都不同意的偏好对,翻转chosen/rejected后重新使用,零标注成本

损失函数 / 训练策略

  • Bradley-Terry点对式RM:\(p = \sigma(r_\theta(x, y_w) - r_\theta(x, y_l))\)
  • 8个模型规模:0.6B−8B,基座Qwen3+Llama-3.1

实验关键数据

主实验:7基准综合评估

模型 RewardBench RB-v2 RM-Bench JudgeBench Avg
INF-ORM-70B - - 75.4 - 73.8
Nemotron-70B - - - - 71.6
Skywork-V2-Llama-8B 96.4 84.1 92.8 80.0 85.8
Skywork-V2-Llama-8B-40M 97.8 86.5 96.0 83.4 88.6

消融:数据质量 vs 数量

设置 结果
12M未策展数据 无法超趇seed模型
290K策展数据(1.8%) 已超趇此前SOTA 70B
纯LLM策展 仅+0.1点
人工策展 +2.3点
完整协议(工具+验证) +3.2点

关键发现

  • 数据质量 >> 数量:未策展12M无效,策展290K已超SOTA
  • 1.7B Skywork超趇此前70B SOTA:证明数据质量可以弥补规模差距
  • 纯LLM策展几乎无效:仅+0.1点,必须有人工引导
  • 回收机制巧妙:翻转错误偏好对提供免费额外数据
  • 风格偏置抵抗力强:RM-Bench Hard上86.5% vs baseline 54%

亮点与洞察

  • 错误驱动检索:根据RM弱点定向检索相似样本,而非随机采样——类似主动学习的思想
  • 人工验证协议的重要性:允许使用工具但人类负责最终判断,比纯人工标注提升了质量而非降低

局限性 / 可改进方向

  • 主观偏好不展现扩展行为(客观偏好可以)
  • 阶段1仍需人工,受标注资源限制
  • 仅用成对Bradley-Terry,未探索点对式评分

相关工作与启发

  • vs ArmoRM/Nemotron:这些70B模型在综合基准上不如Skywork-V2 8B,证明数据质量的决定性作用
  • vs Uni-DPO/TI-DPO:这些方法改进损失函数,Skywork改进数据——两者正交可组合
  • vs On-Policy DPO分析:该论文说数据选择>算法创新,Skywork从Train数据角度强化了这一观点

评分

  • 新颖性: ⭐⭐⭐⭐ Human-AI协同策展流程设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 7基准×8模型规模×详尽消融
  • 写作质量: ⭐⭐⭐⭐ 流程描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 为奖励模型训练提供了完整的数据策展方案,SynPref-40M数据集开源价值巨大