跳转至

HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

会议: NeurIPS 2025
arXiv: 2505.11475
代码: https://huggingface.co/datasets/nvidia/HelpSteer3
领域: 对齐RLHF
关键词: Preference Dataset, Human Annotation, STEM, Code, Multilingual, Reward Models, CC-BY-4.0

一句话总结

NVIDIA 发布的 40K+ 开源人工标注偏好数据集,覆盖通用/STEM/代码/多语言(13 种语言),训练的奖励模型在 RM-Bench 上达 82.4%(+10%),CC-BY-4.0 许可对商业友好。

研究背景与动机

  1. 领域现状:偏好数据从低质量(HH-RLHF)→GPT-4 标注(UltraFeedback)→综合过滤(HelpSteer2)演进,但多样性不足——几乎所有主流数据集仅包含英文。
  2. 现有痛点:LLM 应用拓展到编程、科学推理、多语言交互,RLHF 数据必须覆盖这些新领域。GPT-4 标注数据受服务条款限制商业使用。
  3. 核心矛盾:高质量+多样性+宽许可三者难以兼得——之前的数据集最多满足两项。
  4. 本文要解决什么:构建涵盖 STEM/Code/Multilingual 的高质量、宽许可、大规模偏好数据集。
  5. 切入角度:聘请具备专业背景的标注者(科学家、工程师、多语言流利者),分层质量控制。
  6. 核心 idea 一句话:专家分层标注 + 多领域多语言覆盖 + CC-BY-4.0 = 最全面的开源偏好数据集。

方法详解

整体框架

分层数据收集:不同子集不同来源(ShareGPT/WildChat),17 个模型生成成对响应,3-5 个独立专家标注(7 级评分+理由),严格后处理。

关键设计

  1. 专业标注者分层:
  2. General: 通用场景;STEM: 相关学位+工作经验;Code: 软件工程经验,评估代码质量;Multilingual: 语言流利,检查目标语言使用正确性
  3. 加权 Cohen's κ 达 0.890(强一致性),位置偏差极小(平均偏好 -0.003)

  4. 丰富的覆盖:

  5. Code (8857 样本): 14 种编程语言,Python 38.2%
  6. Multilingual (8063 样本): 13 种自然语言,中文 30.2%
  7. STEM (4918 样本): 高难度科学问题
  8. General (18638 样本): 通用场景

  9. 多级质量控制:

  10. 3-5 个独立标注→取 3 个最一致→移除无效+过滤异常值
  11. 偏置检测:位置偏差<0.003,标准差 1.950

实验关键数据

主实验

数据集/RM RM-Bench 整体 RM-Bench Hard JudgeBench
HelpSteer2 训练 ~72% ~61% ~63%
English RM (Gen+STEM+Code) 79.9% 71.1% 73.7%
Multilingual RM 82.4% 80.0% 69.4%

数据集统计对比

指标 HelpSteer3 HelpSteer2
总样本 40,476 9,125
平均上下文长度 2,638 711
Cohen's κ 0.890 0.878

关键发现

  • RM-Bench Hard 从 ~56%→80%(+24%),高质量数据对困难样本帮助最大
  • 规模 4.4 倍+多样性极大扩展的同时保持了高一致性 (κ=0.890)
  • CC-BY-4.0 许可使商业应用无障碍

亮点与洞察

  • 首次系统解决多样性问题:STEM+Code+Multilingual 终止了仅英文数据的历史
  • 质量与规模兼得:4 倍扩展而 κ 仍 >0.89
  • RM-Bench +10% 证明数据质量是奖励模型性能的关键瓶颈

局限性 / 可改进方向

  • 多语言分布不均(中文 30%,部分语言样本不足)
  • 纯文本,未覆盖多模态偏好
  • 某些主观任务标注仍可能有争议

相关工作与启发

  • vs HelpSteer2: 4.4 倍规模+多领域多语言扩展
  • vs UltraFeedback: 人工标注 vs GPT-4 标注,无许可限制
  • vs Skywork-Preference: 更高质量(κ 0.890)+更多维度覆盖

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统化多维度偏好数据集
  • 实验充分度: ⭐⭐⭐⭐ 多 RM 训练+多基准评估+消融
  • 写作质量: ⭐⭐⭐⭐ 数据构建流程详细
  • 价值: ⭐⭐⭐⭐⭐ CC-BY-4.0 开源+10% RM 提升,对工业界直接可用