HelpSteer3: Human-Annotated Feedback and Edit Data to Empower Inference-Time Scaling¶

会议: ACL 2025
arXiv: 2503.04378
代码: 有
机构: NVIDIA 领域: Others / LLM对齐与推理时扩展
关键词: 推理时扩展, 人工反馈, 反馈-编辑模型, 开放域任务, RLHF, 数据集

一句话总结¶

NVIDIA 发布 HelpSteer3 数据集（7000+标注员、80+国家），训练专用的 Feedback 和 Edit 模型，在推理时通过"初始响应→反馈→编辑"循环实现开放域通用任务的推理时扩展，基于 Llama 3 系列 70B 模型在 Arena Hard 上达到 92.7 分，超越 OpenAI o1-preview (90.4) 和 DeepSeek R1 (92.3)。

研究背景与动机¶

推理时扩展的局限：当前主流推理时扩展技术（如 DeepSeek R1、OpenAI o1）依赖"先思考再回答"范式，核心要求是任务答案可验证（如数学、编程、逻辑推理），无法推广到开放域通用任务
RLHF 反馈形式不够丰富：传统 RLHF 仅使用偏好对比（A vs B）或固定维度评分（如正确性、创造性等），缺乏具体指出"哪里有问题、如何改进"的自然语言反馈
自我反馈效果有限：直接提示指令模型进行自我反馈和自我编辑，在简单任务上可能有效，但在高难度任务（如 Arena Hard 中的复杂编程问题）上几乎无提升甚至退化
人类改进范式的启发：人类在写论文、写代码、做重大决策时，都遵循"初稿→征求反馈→修改"的循环。这种丰富的反馈-改进机制尚未被 LLM 充分利用
核心问题：能否训练专用模型来模仿人类的反馈与编辑能力，使开放域任务也能实现有效的推理时扩展？

方法详解¶

整体框架：Feedback-Edit 推理时扩展系统¶

系统由三个独立模型组成： 1. 初始响应模型（如 Llama-3.1-Nemotron-70B-Instruct）：生成初始回答 2. Feedback 模型：针对初始响应生成详细的自然语言反馈，指出不足并建议改进方向 3. Edit 模型：根据反馈对初始响应进行编辑改进

数据集构建：HelpSteer3¶

数据收集流程¶

提示来源：从 ShareGPT 和 WildChat 抽样，覆盖 General、STEM、Coding、Multilingual 四大类别
响应生成：用 16+ 个不同模型（Nemotron 340B、Mistral Large 2、Gemma 2 等）生成响应，刻意包含不同能力水平的模型以增强泛化性
反馈标注：7000+ 标注员为每个响应提供 3-5 条自然语言反馈（50-250 词），以"The response is {not/slightly/partially/mostly/perfectly} helpful"开头，聚焦整体帮助性评价
响应编辑：将反馈汇总后交给独立标注员池进行响应编辑，仅使用三位最一致标注员的反馈

三个训练数据集¶

Feedback Demonstration（81,642 条）：教模型如何生成反馈
Edit Demonstration（14,461 条）：教模型如何根据反馈编辑响应，包含所有反馈排列以学习顺序无关性
Edit Preference（3,274 对）：区分好编辑 vs 差编辑（不遵循反馈的编辑/直接复制原文的编辑）

模型训练¶

基于 Llama-3.3-70B-Instruct 初始化： - Feedback SFT：在 Feedback Demonstration 上微调 1 epoch - Edit SFT：在 Edit Demonstration 上微调 1 epoch - Edit RM：在 Edit Preference 上训练 Bradley-Terry 奖励模型，设计每个 batch 同时包含 (差编辑, 好编辑) 和 (不编辑, 好编辑) 对 - Edit RL：使用 REINFORCE Leave One Out (RLOO) 在 Edit RM 指导下进一步优化 Edit 模型。RL 训练解决了 SFT 模型约 30% 概率直接复制原响应的问题

推理时多维扩展¶

四个可扩展维度： - 初始响应数：每个 prompt 生成多个初始响应（Best-of-N），通过奖励模型选优 - 有效反馈数：生成更多反馈并根据建设性批评关键词重排序，筛选出有效反馈 - 编辑响应数：对同一组反馈生成多个编辑版本，选奖励最高的 - 多维联合扩展：同时扩展多个维度实现最优性能

实验¶

实验设置¶

评估指标：AlpacaEval 2.0 LC（简单）、GPT-4-Turbo MT Bench（中等）、Arena Hard（困难）
基准模型：Llama-3.1-Nemotron-70B-Instruct、Llama-3.3-70B-Instruct
外部对比：Llama-3.1-405B-Instruct、Claude-3.5-Sonnet、GPT-4o、OpenAI o1-preview、DeepSeek R1

主实验结果¶

模型	MT Bench	AlpacaEval LC	Arena Hard
Nemotron-70B-Instruct	8.98	57.6	85.0
+ Feedback + Edit	9.16	62.8	87.0
Llama-3.3-70B-Instruct	8.29	35.0	62.4
+ Feedback + Edit	9.07	36.9	74.8
GPT-4o-2024-05-13	8.74	57.5	79.3
Claude-3-5-Sonnet	8.81	52.4	79.2

Feedback-Edit 系统在所有三个指标上显著提升基础模型表现，且长度增幅可控。

消融实验¶

设置	MT Bench	AlpacaEval LC	Arena Hard
Nemotron-70B 基线	8.98	57.6	85.0
+ Self-Feedback + Self-Edit	9.11	64.6	84.6 ↓
+ Feedback + Self-Edit	8.94	66.2	85.4
+ Feedback + Edit w/o RL	9.12	64.4	86.4
+ Edit w/o Feedback	9.14	67.4	84.5 ↓
+ Feedback + Edit (完整)	9.16	62.8	87.0

关键发现： - 自我反馈（Self-Feedback）在简单任务有效但在困难任务退化，证明了训练专用模型的必要性 - 移除 RL 后 Edit 模型有 ~30% 概率直接复制原响应不做修改 - 移除 Feedback 后 Arena Hard 反而低于基线（84.5 vs 85.0），说明反馈对困难任务至关重要

推理时扩展效果¶

最优配置（8 个初始响应 × 16 条有效反馈 + Nemotron-70B-Select 选择器）： - Arena Hard: 92.7，超越 OpenAI o1-preview (90.4) 和 DeepSeek R1 (92.3) - 仅需约 16x 的 token 生成量（与 Best-of-16 相当），但效果显著优于纯 Best-of-N (88.5)

蒸馏实验¶

模型	AlpacaEval LC	Arena Hard
Llama-3.1-8B + Distill	41.5	55.5
Llama-3.3-70B + Distill	61.6	88.8
Nemotron-70B + Distill	61.3	88.4

蒸馏数据可大幅提升基础模型零样本性能（Llama-3.3-70B Arena Hard: 62.4 → 88.8），适合延迟敏感场景。

亮点¶

新颖的推理时扩展范式：将"反馈-编辑"人类协作模式系统化为 LLM 推理时扩展方法，是首个在开放域通用任务上达到 SOTA 的推理时扩展方案
大规模高质量数据集：7000+ 标注员、80+ 国家、14 种编程语言、13 种自然语言；数据 CC-BY-4.0 开源
系统可分解部署：Feedback/Edit 模型可分别部署在不同计算资源上，采样可并行化，总延迟仅约 2x 贪心生成——远低于 DeepSeek R1 等需要顺序生成大量思考 token 的方案
消融设计严谨：通过 Self-Feedback、Self-Edit、移除 RL、移除 Feedback 等对照实验，清晰量化每个组件的贡献
蒸馏可行性：验证反馈-编辑系统产生的数据可用于蒸馏，适合不同延迟需求

局限性¶

计算成本：最优配置需要生成大量反馈并重排序过滤，采样和选择过程仍有优化空间（如约束解码减少无效反馈）
数据时效性：提示来源于 2023-2024 年的 ShareGPT/WildChat，可能无法代表当前最复杂的用户查询
响应长度限制：跳过了需要 2000+ 词响应或 4000+ 词输入的提示，限制了在长文本场景的适用性
仅在 70B 规模验证：未探索更大（如 405B）或更小（仅蒸馏到 8B）模型的完整 Feedback-Edit 系统效果
Edit Preference 数据量偏小（3,274 对）：可能限制 Edit RM 的泛化能力，且仅覆盖 General/STEM 子集

评分¶

⭐⭐⭐⭐ — 在开放域通用任务推理时扩展方面建立了新范式，数据集规模和实验设计扎实，消融分析清晰有力。Arena Hard 上超越 o1-preview 和 DeepSeek R1 具有说服力。局限在于计算成本优化和数据规模的进一步扩展空间。