HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages¶
会议: NeurIPS 2025
arXiv: 2505.11475
代码: https://huggingface.co/datasets/nvidia/HelpSteer3
领域: 对齐RLHF
关键词: Preference Dataset, Human Annotation, STEM, Code, Multilingual, Reward Models, CC-BY-4.0
一句话总结¶
NVIDIA 发布的 40K+ 开源人工标注偏好数据集,覆盖通用/STEM/代码/多语言(13 种语言),训练的奖励模型在 RM-Bench 上达 82.4%(+10%),CC-BY-4.0 许可对商业友好。
研究背景与动机¶
- 领域现状:偏好数据从低质量(HH-RLHF)→GPT-4 标注(UltraFeedback)→综合过滤(HelpSteer2)演进,但多样性不足——几乎所有主流数据集仅包含英文。
- 现有痛点:LLM 应用拓展到编程、科学推理、多语言交互,RLHF 数据必须覆盖这些新领域。GPT-4 标注数据受服务条款限制商业使用。
- 核心矛盾:高质量+多样性+宽许可三者难以兼得——之前的数据集最多满足两项。
- 本文要解决什么:构建涵盖 STEM/Code/Multilingual 的高质量、宽许可、大规模偏好数据集。
- 切入角度:聘请具备专业背景的标注者(科学家、工程师、多语言流利者),分层质量控制。
- 核心 idea 一句话:专家分层标注 + 多领域多语言覆盖 + CC-BY-4.0 = 最全面的开源偏好数据集。
方法详解¶
整体框架¶
分层数据收集:不同子集不同来源(ShareGPT/WildChat),17 个模型生成成对响应,3-5 个独立专家标注(7 级评分+理由),严格后处理。
关键设计¶
- 专业标注者分层:
- General: 通用场景;STEM: 相关学位+工作经验;Code: 软件工程经验,评估代码质量;Multilingual: 语言流利,检查目标语言使用正确性
-
加权 Cohen's κ 达 0.890(强一致性),位置偏差极小(平均偏好 -0.003)
-
丰富的覆盖:
- Code (8857 样本): 14 种编程语言,Python 38.2%
- Multilingual (8063 样本): 13 种自然语言,中文 30.2%
- STEM (4918 样本): 高难度科学问题
-
General (18638 样本): 通用场景
-
多级质量控制:
- 3-5 个独立标注→取 3 个最一致→移除无效+过滤异常值
- 偏置检测:位置偏差<0.003,标准差 1.950
实验关键数据¶
主实验¶
| 数据集/RM | RM-Bench 整体 | RM-Bench Hard | JudgeBench |
|---|---|---|---|
| HelpSteer2 训练 | ~72% | ~61% | ~63% |
| English RM (Gen+STEM+Code) | 79.9% | 71.1% | 73.7% |
| Multilingual RM | 82.4% | 80.0% | 69.4% |
数据集统计对比¶
| 指标 | HelpSteer3 | HelpSteer2 |
|---|---|---|
| 总样本 | 40,476 | 9,125 |
| 平均上下文长度 | 2,638 | 711 |
| Cohen's κ | 0.890 | 0.878 |
关键发现¶
- RM-Bench Hard 从 ~56%→80%(+24%),高质量数据对困难样本帮助最大
- 规模 4.4 倍+多样性极大扩展的同时保持了高一致性 (κ=0.890)
- CC-BY-4.0 许可使商业应用无障碍
亮点与洞察¶
- 首次系统解决多样性问题:STEM+Code+Multilingual 终止了仅英文数据的历史
- 质量与规模兼得:4 倍扩展而 κ 仍 >0.89
- RM-Bench +10% 证明数据质量是奖励模型性能的关键瓶颈
局限性 / 可改进方向¶
- 多语言分布不均(中文 30%,部分语言样本不足)
- 纯文本,未覆盖多模态偏好
- 某些主观任务标注仍可能有争议
相关工作与启发¶
- vs HelpSteer2: 4.4 倍规模+多领域多语言扩展
- vs UltraFeedback: 人工标注 vs GPT-4 标注,无许可限制
- vs Skywork-Preference: 更高质量(κ 0.890)+更多维度覆盖
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统化多维度偏好数据集
- 实验充分度: ⭐⭐⭐⭐ 多 RM 训练+多基准评估+消融
- 写作质量: ⭐⭐⭐⭐ 数据构建流程详细
- 价值: ⭐⭐⭐⭐⭐ CC-BY-4.0 开源+10% RM 提升,对工业界直接可用