HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages¶

会议: NeurIPS 2025
arXiv: 2505.11475
代码: https://huggingface.co/datasets/nvidia/HelpSteer3
领域: 对齐RLHF
关键词: Preference Dataset, Human Annotation, STEM, Code, Multilingual, Reward Models, CC-BY-4.0

一句话总结¶

NVIDIA 发布的 40K+ 开源人工标注偏好数据集，覆盖通用/STEM/代码/多语言（13 种语言），训练的奖励模型在 RM-Bench 上达 82.4%（+10%），CC-BY-4.0 许可对商业友好。

研究背景与动机¶

领域现状：偏好数据从低质量（HH-RLHF）→GPT-4 标注（UltraFeedback）→综合过滤（HelpSteer2）演进，但多样性不足——几乎所有主流数据集仅包含英文。
现有痛点：LLM 应用拓展到编程、科学推理、多语言交互，RLHF 数据必须覆盖这些新领域。GPT-4 标注数据受服务条款限制商业使用。
核心矛盾：高质量+多样性+宽许可三者难以兼得——之前的数据集最多满足两项。
本文要解决什么：构建涵盖 STEM/Code/Multilingual 的高质量、宽许可、大规模偏好数据集。
切入角度：聘请具备专业背景的标注者（科学家、工程师、多语言流利者），分层质量控制。
核心 idea 一句话：专家分层标注 + 多领域多语言覆盖 + CC-BY-4.0 = 最全面的开源偏好数据集。

方法详解¶

整体框架¶

分层数据收集：不同子集不同来源（ShareGPT/WildChat），17 个模型生成成对响应，3-5 个独立专家标注（7 级评分+理由），严格后处理。

关键设计¶

专业标注者分层:
General: 通用场景；STEM: 相关学位+工作经验；Code: 软件工程经验，评估代码质量；Multilingual: 语言流利，检查目标语言使用正确性
加权 Cohen's κ 达 0.890（强一致性），位置偏差极小（平均偏好 -0.003）
丰富的覆盖:
Code (8857 样本): 14 种编程语言，Python 38.2%
Multilingual (8063 样本): 13 种自然语言，中文 30.2%
STEM (4918 样本): 高难度科学问题
General (18638 样本): 通用场景
多级质量控制:
3-5 个独立标注→取 3 个最一致→移除无效+过滤异常值
偏置检测：位置偏差<0.003，标准差 1.950

实验关键数据¶

主实验¶

数据集/RM	RM-Bench 整体	RM-Bench Hard	JudgeBench
HelpSteer2 训练	~72%	~61%	~63%
English RM (Gen+STEM+Code)	79.9%	71.1%	73.7%
Multilingual RM	82.4%	80.0%	69.4%

数据集统计对比¶

指标	HelpSteer3	HelpSteer2
总样本	40,476	9,125
平均上下文长度	2,638	711
Cohen's κ	0.890	0.878

关键发现¶

RM-Bench Hard 从 ~56%→80%（+24%），高质量数据对困难样本帮助最大
规模 4.4 倍+多样性极大扩展的同时保持了高一致性 (κ=0.890)
CC-BY-4.0 许可使商业应用无障碍

亮点与洞察¶

首次系统解决多样性问题：STEM+Code+Multilingual 终止了仅英文数据的历史
质量与规模兼得：4 倍扩展而 κ 仍 >0.89
RM-Bench +10% 证明数据质量是奖励模型性能的关键瓶颈

局限性 / 可改进方向¶

多语言分布不均（中文 30%，部分语言样本不足）
纯文本，未覆盖多模态偏好
某些主观任务标注仍可能有争议

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统化多维度偏好数据集
实验充分度: ⭐⭐⭐⭐ 多 RM 训练+多基准评估+消融
写作质量: ⭐⭐⭐⭐ 数据构建流程详细
价值: ⭐⭐⭐⭐⭐ CC-BY-4.0 开源+10% RM 提升，对工业界直接可用