Curiosity-Driven Reinforcement Learning from Human Feedback¶
会议: ACL 2025 / arXiv: 2501.11463 / 代码: github / 领域: LLM对齐 / RLHF / 关键词: curiosity-driven, RLHF, diversity, intrinsic reward, exploration, ICM
一句话总结¶
CD-RLHF 将好奇心驱动探索(curiosity-driven RL)引入 RLHF,通过前向动力学模型的预测误差作为内在奖励,结合 top-k 门控过滤与 reward whitening,在不损失对齐质量的前提下大幅提升 LLM 输出多样性(Llama-3.2-1B 上 Diversity 提升 40.26%,EAD 提升 8.92%)。
研究背景与动机¶
- 领域现状:RLHF 是当前 LLM 对齐的标准范式——通过人类偏好数据训练奖励模型,再用 PPO 等 RL 算法微调 LLM,在安全性、指令遵循等方面取得显著成功。
- 核心痛点:RLHF 训练后 LLM 输出多样性显著降低,模型倾向于生成"安全"的同质化回复。Kirk et al. (2024) 和 Wu et al. (2024) 系统性地指出对齐质量与输出多样性之间存在明确的 trade-off,Wu 将此现象定义为 generative monoculture(生成单一文化)。
- 核心矛盾:PPO 优化使策略向高奖励区域坍缩(mode collapse),token 选择趋于保守,生成文本在词汇和语义层面都趋同。这直接限制了 LLM 在创意写作、数据合成、red-teaming 等需要多样性的下游应用。
- 已有尝试的不足:Hong et al. (2024) 将 SelfBLEU 和 Sentence-BERT 作为 RL 训练中的额外奖励,主要服务于 red-teaming 的测试覆盖,效果有限且不够系统。Wang et al. (2024) 用 forward KL 替代 reverse KL,虽提升多样性但牺牲对齐质量,鱼与熊掌不可兼得。Bradley et al. (2023) 在推理阶段做多样性后处理,不是训练时的根本解法。
- 本文切入角度:借鉴 RL 中经典的好奇心驱动探索理论(Pathak et al., 2017; Burda et al., 2019),在标准 RLHF 的稀疏外在奖励之外,引入基于状态预测误差的 token 级内在奖励,从训练时鼓励策略模型探索"新颖"状态空间。
- 核心 idea:用前向动力学模型的预测误差衡量状态的"新颖程度",新颖状态获得更高内在奖励,激励 LLM 在同一 prompt 下做出更多样的 token 选择,同时外在奖励保证对齐质量不下降。
方法详解¶
整体框架¶
CD-RLHF 在标准 PPO-RLHF 基础上增加一个 Intrinsic Curiosity Module (ICM) 模块。训练流程:(1) 策略模型基于 prompt 生成 response tokens;(2) 奖励模型给出外在奖励 \(R\);(3) ICM 逐 token 计算内在好奇心奖励;(4) 合并两种奖励后用 PPO 优化策略。数据划分比例为 SFT:RM:PPO = 20%:40%:40%。
奖励设计¶
外在奖励包含奖励模型打分 \(R\) 和 KL 惩罚项:
总奖励将内在与外在奖励组合:
其中 \(\eta\) 是控制内在奖励强度的折扣因子(实验中取很小值,因内在奖励尺度远大于外在奖励)。
内在好奇心模块 (ICM)¶
ICM 由特征编码器 \(\phi\)(2层MLP)和前向模型 \(f\)(2层MLP)组成。在 RLHF 语境下,状态 \(s_t = \{s_0, a_{<t}\}\)(prompt + 已生成 tokens),动作 \(a_t\) 是当前选中的 token。
前向动力学预测:给定当前状态编码 \(\phi(s_t)\) 和动作表示 \(\psi(a_t)\),前向模型预测下一状态:
ICM 损失(自监督训练):
关键设计动机:如果模型选择了一个"出乎意料"的 token(前向模型预测误差大),说明这是新颖的探索方向,值得被奖励。随着 ICM 训练进行,频繁访问的状态预测误差持续降低——从"好奇"变成"无聊"——自然引导模型去探索新的生成路径。
Top-k 过滤门控¶
并非所有 token 位置都值得给好奇心奖励。若被选 token 已在策略分布的 top-k 候选内,说明模型"很确定"该选它,探索价值低。内在奖励定义为:
实验中取 \(k=1\),约 20% 的 token 位置会被激活内在奖励。实验证明,超过 top-1 范围的 token 已足以覆盖好奇心探索的有效区间(见频率分析)。
Reward Whitening 与特征对齐¶
- Reward Whitening:对内在奖励做标准化 \(r^{(i)} = (r^{(i)} - \mu) / \sigma^2\),消除内在/外在奖励尺度差异,稳定 PPO 训练。
- 特征空间对齐:状态表示 \(s_t\) 从参考模型 last-layer hidden states 提取(连续空间),动作表示 \(a_t\) 从策略模型 embedding layer 提取,确保预测误差计算在一致的特征空间进行。
实验关键数据¶
主实验:TL;DR 文本摘要(Table 1 上半部分)¶
| 模型 | 方法 | Diversity↑ | EAD↑ | SelfBLEU↓ | SentBERT↓ | RM Score↑ |
|---|---|---|---|---|---|---|
| Gemma-2B | RLHF | 0.2132 | 0.7347 | 0.3367 | 0.7024 | 0.90 |
| Gemma-2B | Sent-Rewards | 0.2355 | 0.7512 | 0.3053 | 0.6961 | 0.95 |
| Gemma-2B | CD-RLHF | 0.2839 (+33.2%) | 0.7793 (+6.1%) | 0.2590 | 0.6720 | 0.95 |
| Gemma-7B | RLHF | 0.1180 | 0.6602 | 0.4352 | 0.7601 | 2.02 |
| Gemma-7B | CD-RLHF | 0.1360 (+15.3%) | 0.6816 (+3.2%) | 0.4144 | 0.7480 | 2.02 |
| Llama-1B | RLHF | 0.1724 | 0.6869 | 0.3997 | 0.6971 | 1.14 |
| Llama-1B | CD-RLHF | 0.2418 (+40.3%) | 0.7482 (+8.9%) | 0.3108 | 0.6847 | 1.17 |
| Llama-3B | RLHF | 0.2281 | 0.7441 | 0.3163 | 0.6658 | 3.33 |
| Llama-3B | CD-RLHF | 0.2920 (+28.0%) | 0.7879 (+5.9%) | 0.2463 | 0.6551 | 3.49 |
主实验:UltraFeedback 指令跟随(Table 1 下半部分)¶
| 模型 | 方法 | Diversity↑ | EAD↑ | SelfBLEU↓ | SentBERT↓ | RM Score↑ |
|---|---|---|---|---|---|---|
| Gemma-2B | RLHF | 0.1686 | 0.6503 | 0.3104 | 0.7672 | -1.01 |
| Gemma-2B | CD-RLHF | 0.1899 (+12.6%) | 0.7417 (+14.1%) | 0.2858 | 0.7308 | -0.90 |
| Gemma-7B | RLHF | 0.2345 | 0.7360 | 0.2717 | 0.7298 | 0.63 |
| Gemma-7B | CD-RLHF | 0.2654 (+13.2%) | 0.7639 (+3.8%) | 0.2442 | 0.6858 | 0.62 |
| Llama-1B | RLHF | 0.1683 | 0.6499 | 0.3564 | 0.7813 | 1.00 |
| Llama-1B | CD-RLHF | 0.1834 (+9.0%) | 0.6891 (+6.0%) | 0.3149 | 0.7598 | 0.97 |
| Llama-3B | RLHF | 0.1805 | 0.7031 | 0.3188 | 0.7676 | 1.35 |
| Llama-3B | CD-RLHF | 0.2223 (+23.2%) | 0.7673 (+9.1%) | 0.2531 | 0.7349 | 1.43 |
OOD 泛化:MT-Bench 结果(Table 2)¶
UltraFeedback 训练的模型在 OOD 基准 MT-Bench 上的表现:
| 模型 | 方法 | Turn 1 | Turn 2 | Overall | Diversity↑ | SelfBLEU↓ |
|---|---|---|---|---|---|---|
| Gemma-2B | RLHF | 6.26 | 4.45 | 5.35 | 0.1076 | 0.4383 |
| Gemma-2B | CD-RLHF | 6.91 | 4.45 | 5.68 | 0.1123 | 0.3961 |
| Gemma-7B | RLHF | 6.36 | 5.15 | 5.75 | 0.1173 | 0.4851 |
| Gemma-7B | CD-RLHF | 6.46 | 5.46 | 5.96 | 0.1297 | 0.4623 |
| Llama-1B | RLHF | 4.33 | 3.10 | 3.71 | 0.0818 | 0.4699 |
| Llama-1B | CD-RLHF | 4.78 | 3.57 | 4.18 | 0.0895 | 0.3919 |
| Llama-3B | RLHF | 6.47 | 5.47 | 5.98 | 0.0939 | 0.4489 |
| Llama-3B | CD-RLHF | 6.71 | 5.45 | 6.08 | 0.1133 | 0.3962 |
关键实验发现¶
- 多样性显著提升且对齐质量保持:所有 8 组(4模型×2数据集)实验中,CD-RLHF 的四项多样性指标均优于 RLHF,RM Score 持平或略有提升。
- 小模型受益更大:Llama-3.2-1B 在 TL;DR 上 Diversity 提升 40.3%,因为小模型在 RLHF 后 mode collapse 更严重。
- OOD 泛化强劲:MT-Bench 上 GPT-4 评分全面超越 RLHF,CD-RLHF 相对 RLHF 的 GPT-4 win rate 达 21.9%–32.5%,说明好奇心探索带来的多样性有正向泛化效果。
- 内在奖励频率分析:top-1 激活(约 20% tokens)已足够。将频率从 20% 扩至 60% 仅提升约 3% 多样性,而扩至 100% 时多样性不再增加但 RM Score 从 0.95 降至 0.88,说明精准激活胜过全面激活。
- 训练曲线特征:CD-RLHF 的对齐质量收敛速度快于 RLHF(step 2500 vs 4640 达到同等水平),且多样性曲线全程稳步上升,而 Sent-Rewards 在前 1500 步多样性反而下降。
- 故事写作扩展实验:在 ROC Story 数据集(1817 故事)上,CD-RLHF 训练的 Llama-3.2-3B 和 Gemma-7B 在创意写作任务中同样展现出更高的词汇与语义多样性。
亮点与洞察¶
- 跨领域迁移的范例:好奇心驱动 RL 在游戏/机器人领域已有大量研究,本文首次将其系统性地迁移到 RLHF 中用于解决多样性问题,概念清晰、动机自然,是一个教科书级的跨领域创新。
- Top-k 门控设计精巧:不是简单地给所有 token 加好奇心奖励,而是只在模型选了非 top-1 token 时才激活——既避免在确定性位置浪费探索预算,又确保只奖励"有意义地偏离常规"的选择。频率分析表明 20% 即为最优比例。
- 自然衰减机制:ICM 预测误差随训练进行自然衰减(新颖状态变得"无聊"),无需手动调度,天然符合好奇心驱动 RL 的理论直觉。
- 模块化可插拔:ICM 独立于策略模型训练,作为自监督组件可集成到任何 PPO-based 对齐框架中,实现复杂度低。
局限性 / 可改进方向¶
- 仅限 PPO 框架:未探索与 DPO/GRPO 等无需 reward model 的对齐方法结合,泛化性未知。
- 内在奖励尺度问题:作者承认内在奖励尺度远大于外在奖励,需要将 \(\eta\) 设为很小值。设计尺度更匹配的 ICM 可能带来更好性能。
- 多样性 vs SFT 的差距仍在:虽然 CD-RLHF 大幅缓解了 RLHF 导致的多样性降低,但总体多样性仍低于 SFT 模型,trade-off 没有从根本上消除。
- Top-k 中 k 的选择粗糙:仅测试 \(k=1\),不同任务/模型可能需要不同 \(k\) 值的自适应调整。
- 计算开销未量化:ICM 额外参数和前向传播的训练效率影响缺少具体数据。
- 多样性"质量"未评估:现有指标(n-gram distinct、SelfBLEU 等)衡量的是表面多样性,缺少对"多样但正确/有用"的系统分析。
相关工作与启发¶
- vs Sent-Rewards (Hong et al., 2024):同样在 RL 训练中加入多样性奖励(SelfBLEU/SBERT),但只是启发式奖励工程,不如 CD-RLHF 的系统性探索机制有效。实验中 CD-RLHF 全面胜出。
- vs f-divergence (Wang et al., 2024):用 forward KL 替代 reverse KL 提升多样性但牺牲对齐质量,CD-RLHF 实现了两者兼顾。
- vs Quality-Diversity (Bradley et al., 2023):推理阶段的后处理方法,与 CD-RLHF 的训练时方法互补,理论上可叠加使用。
- 启发方向:好奇心探索框架可迁移到 red-teaming(生成更多样攻击样本)、数据合成(生成更多样训练数据)等场景。ICM 的自监督训练范式也可能启发其他 token 级密集奖励的设计。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 好奇心驱动 RL 到 RLHF 的首次系统迁移,idea 明确优雅,但技术实现(MLP+前向动力学)相对直接
- 实验充分度: ⭐⭐⭐⭐ — 4 模型 × 2 数据集 × 4+种多样性指标,含消融/频率分析/OOD/故事写作扩展,GPT-4+人工评估
- 写作质量: ⭐⭐⭐⭐ — 动机推导清晰,框图直观,方法描述细致完整
- 价值: ⭐⭐⭐⭐ — 解决 RLHF 多样性降低的实际痛点,方法可扩展可插拔,代码开源