Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy¶

会议: ICLR 2026
arXiv: 2507.01352
代码: SynPref-40M数据集公开
领域: 对齐RLHF / 奖励建模
关键词: 奖励模型, 偏好数据策展, Human-AI协同, 数据质量, 可扩展策展

一句话总结¶

提出Human-AI协同的两阶段偏好数据策展流程：第一阶段人工验证+错误驱动检索+偏好引导LLM标注迭代8轮积累1M对，第二阶段一致性过滤扩展到26M对。训练的Skywork-Reward-V2 8B模型在RewardBench达97.8%，在7个基准上平均88.6%超越所有开源70B模型。

领域现状：奖励模型(RM)是RLHF的核心组件。开源RM在评估基准上表现不佳，无法捕捉精细人类偏好。RewardBench TOP 20中16个用相同基座/相似数据，进展停滞。
现有痛点：
根因在偏好数据集——范围窄、合成标注、质量控制不严
单一基准分数与下游性能不相关：RewardBench 80→90并不一致地提升其他基准
纯人工标注不可扩展，纯LLM标注质量不足
核心矛盾：高质量偏好数据需要人工但不可扩展，可扩展的LLM标注质量不足
核忊idea一句话：人工验证引导LLM标注+错误驱动检索+一致性过滤 = 可扩展的高质量偏好策展

两阶段流水线：(1) 小规模人工驱动迭代策展(8轮→~1M对) (2) 大规模自动一致性策展(→~26M对)

阶段一：人工驱动迭代:
每轮三步：①训练RM并在gold验证集上评估 ②错误驱动自适应检索：根据RM弱点从未验证池中检索相似对，错误样本检索更多(k_max=8) ③偏好感知LLM标注：用gold集的相似样本作few-shot，多个强LLM自一致性聚合
人工验证协议：标注者可用搜索引擎+frontier LLM作为工具，但最终判断由人负责
8轮迭代积累~1M偏好对
阶段二：大规模自动策展:
一致性过滤：用最佳RM和独立的gold RM双重检查
回收机制：两个RM都不同意的偏好对，翻转chosen/rejected后重新使用，零标注成本

模型	RewardBench	RB-v2	RM-Bench	JudgeBench	Avg
INF-ORM-70B	-	-	75.4	-	73.8
Nemotron-70B	-	-	-	-	71.6
Skywork-V2-Llama-8B	96.4	84.1	92.8	80.0	85.8
Skywork-V2-Llama-8B-40M	97.8	86.5	96.0	83.4	88.6