跳转至

Curiosity-Driven Reinforcement Learning from Human Feedback

会议: ACL 2025 / arXiv: 2501.11463 / 代码: github / 领域: LLM对齐 / RLHF / 关键词: curiosity-driven, RLHF, diversity, intrinsic reward, exploration, ICM

一句话总结

CD-RLHF 将好奇心驱动探索(curiosity-driven RL)引入 RLHF,通过前向动力学模型的预测误差作为内在奖励,结合 top-k 门控过滤与 reward whitening,在不损失对齐质量的前提下大幅提升 LLM 输出多样性(Llama-3.2-1B 上 Diversity 提升 40.26%,EAD 提升 8.92%)。

研究背景与动机

  1. 领域现状:RLHF 是当前 LLM 对齐的标准范式——通过人类偏好数据训练奖励模型,再用 PPO 等 RL 算法微调 LLM,在安全性、指令遵循等方面取得显著成功。
  2. 核心痛点:RLHF 训练后 LLM 输出多样性显著降低,模型倾向于生成"安全"的同质化回复。Kirk et al. (2024) 和 Wu et al. (2024) 系统性地指出对齐质量与输出多样性之间存在明确的 trade-off,Wu 将此现象定义为 generative monoculture(生成单一文化)。
  3. 核心矛盾:PPO 优化使策略向高奖励区域坍缩(mode collapse),token 选择趋于保守,生成文本在词汇和语义层面都趋同。这直接限制了 LLM 在创意写作、数据合成、red-teaming 等需要多样性的下游应用。
  4. 已有尝试的不足:Hong et al. (2024) 将 SelfBLEU 和 Sentence-BERT 作为 RL 训练中的额外奖励,主要服务于 red-teaming 的测试覆盖,效果有限且不够系统。Wang et al. (2024) 用 forward KL 替代 reverse KL,虽提升多样性但牺牲对齐质量,鱼与熊掌不可兼得。Bradley et al. (2023) 在推理阶段做多样性后处理,不是训练时的根本解法。
  5. 本文切入角度:借鉴 RL 中经典的好奇心驱动探索理论(Pathak et al., 2017; Burda et al., 2019),在标准 RLHF 的稀疏外在奖励之外,引入基于状态预测误差的 token 级内在奖励,从训练时鼓励策略模型探索"新颖"状态空间。
  6. 核心 idea:用前向动力学模型的预测误差衡量状态的"新颖程度",新颖状态获得更高内在奖励,激励 LLM 在同一 prompt 下做出更多样的 token 选择,同时外在奖励保证对齐质量不下降。

方法详解

整体框架

CD-RLHF 在标准 PPO-RLHF 基础上增加一个 Intrinsic Curiosity Module (ICM) 模块。训练流程:(1) 策略模型基于 prompt 生成 response tokens;(2) 奖励模型给出外在奖励 \(R\);(3) ICM 逐 token 计算内在好奇心奖励;(4) 合并两种奖励后用 PPO 优化策略。数据划分比例为 SFT:RM:PPO = 20%:40%:40%。

奖励设计

外在奖励包含奖励模型打分 \(R\) 和 KL 惩罚项:

\[r^{(e)} = R - \beta D_{\text{KL}}(\pi_{\text{policy}}(\cdot) \| \pi_{\text{ref}}(\cdot))\]

总奖励将内在与外在奖励组合:

\[r_t = r_t^{(e)} + \eta \cdot r_t^{(i)}\]

其中 \(\eta\) 是控制内在奖励强度的折扣因子(实验中取很小值,因内在奖励尺度远大于外在奖励)。

内在好奇心模块 (ICM)

ICM 由特征编码器 \(\phi\)(2层MLP)和前向模型 \(f\)(2层MLP)组成。在 RLHF 语境下,状态 \(s_t = \{s_0, a_{<t}\}\)(prompt + 已生成 tokens),动作 \(a_t\) 是当前选中的 token。

前向动力学预测:给定当前状态编码 \(\phi(s_t)\) 和动作表示 \(\psi(a_t)\),前向模型预测下一状态:

\[\hat{\phi}(s_{t+1}) = f(\phi(s_t), \psi(a_t))\]

ICM 损失(自监督训练):

\[\mathcal{L}_{\text{ICM}} = \frac{1}{2} \|\hat{\phi}(s_{t+1}) - \phi(s_{t+1})\|_2^2\]

关键设计动机:如果模型选择了一个"出乎意料"的 token(前向模型预测误差大),说明这是新颖的探索方向,值得被奖励。随着 ICM 训练进行,频繁访问的状态预测误差持续降低——从"好奇"变成"无聊"——自然引导模型去探索新的生成路径。

Top-k 过滤门控

并非所有 token 位置都值得给好奇心奖励。若被选 token 已在策略分布的 top-k 候选内,说明模型"很确定"该选它,探索价值低。内在奖励定义为:

\[r_t^{(i)} = \begin{cases} 0 & \text{if } a_t \in \text{Top-}k(\pi(\cdot | s_t)) \\ \frac{1}{2}\|\hat{\phi}(s_{t+1}) - \phi(s_{t+1})\|_2 & \text{otherwise} \end{cases}\]

实验中取 \(k=1\),约 20% 的 token 位置会被激活内在奖励。实验证明,超过 top-1 范围的 token 已足以覆盖好奇心探索的有效区间(见频率分析)。

Reward Whitening 与特征对齐

  • Reward Whitening:对内在奖励做标准化 \(r^{(i)} = (r^{(i)} - \mu) / \sigma^2\),消除内在/外在奖励尺度差异,稳定 PPO 训练。
  • 特征空间对齐:状态表示 \(s_t\) 从参考模型 last-layer hidden states 提取(连续空间),动作表示 \(a_t\) 从策略模型 embedding layer 提取,确保预测误差计算在一致的特征空间进行。

实验关键数据

主实验:TL;DR 文本摘要(Table 1 上半部分)

模型 方法 Diversity↑ EAD↑ SelfBLEU↓ SentBERT↓ RM Score↑
Gemma-2B RLHF 0.2132 0.7347 0.3367 0.7024 0.90
Gemma-2B Sent-Rewards 0.2355 0.7512 0.3053 0.6961 0.95
Gemma-2B CD-RLHF 0.2839 (+33.2%) 0.7793 (+6.1%) 0.2590 0.6720 0.95
Gemma-7B RLHF 0.1180 0.6602 0.4352 0.7601 2.02
Gemma-7B CD-RLHF 0.1360 (+15.3%) 0.6816 (+3.2%) 0.4144 0.7480 2.02
Llama-1B RLHF 0.1724 0.6869 0.3997 0.6971 1.14
Llama-1B CD-RLHF 0.2418 (+40.3%) 0.7482 (+8.9%) 0.3108 0.6847 1.17
Llama-3B RLHF 0.2281 0.7441 0.3163 0.6658 3.33
Llama-3B CD-RLHF 0.2920 (+28.0%) 0.7879 (+5.9%) 0.2463 0.6551 3.49

主实验:UltraFeedback 指令跟随(Table 1 下半部分)

模型 方法 Diversity↑ EAD↑ SelfBLEU↓ SentBERT↓ RM Score↑
Gemma-2B RLHF 0.1686 0.6503 0.3104 0.7672 -1.01
Gemma-2B CD-RLHF 0.1899 (+12.6%) 0.7417 (+14.1%) 0.2858 0.7308 -0.90
Gemma-7B RLHF 0.2345 0.7360 0.2717 0.7298 0.63
Gemma-7B CD-RLHF 0.2654 (+13.2%) 0.7639 (+3.8%) 0.2442 0.6858 0.62
Llama-1B RLHF 0.1683 0.6499 0.3564 0.7813 1.00
Llama-1B CD-RLHF 0.1834 (+9.0%) 0.6891 (+6.0%) 0.3149 0.7598 0.97
Llama-3B RLHF 0.1805 0.7031 0.3188 0.7676 1.35
Llama-3B CD-RLHF 0.2223 (+23.2%) 0.7673 (+9.1%) 0.2531 0.7349 1.43

OOD 泛化:MT-Bench 结果(Table 2)

UltraFeedback 训练的模型在 OOD 基准 MT-Bench 上的表现:

模型 方法 Turn 1 Turn 2 Overall Diversity↑ SelfBLEU↓
Gemma-2B RLHF 6.26 4.45 5.35 0.1076 0.4383
Gemma-2B CD-RLHF 6.91 4.45 5.68 0.1123 0.3961
Gemma-7B RLHF 6.36 5.15 5.75 0.1173 0.4851
Gemma-7B CD-RLHF 6.46 5.46 5.96 0.1297 0.4623
Llama-1B RLHF 4.33 3.10 3.71 0.0818 0.4699
Llama-1B CD-RLHF 4.78 3.57 4.18 0.0895 0.3919
Llama-3B RLHF 6.47 5.47 5.98 0.0939 0.4489
Llama-3B CD-RLHF 6.71 5.45 6.08 0.1133 0.3962

关键实验发现

  • 多样性显著提升且对齐质量保持:所有 8 组(4模型×2数据集)实验中,CD-RLHF 的四项多样性指标均优于 RLHF,RM Score 持平或略有提升。
  • 小模型受益更大:Llama-3.2-1B 在 TL;DR 上 Diversity 提升 40.3%,因为小模型在 RLHF 后 mode collapse 更严重。
  • OOD 泛化强劲:MT-Bench 上 GPT-4 评分全面超越 RLHF,CD-RLHF 相对 RLHF 的 GPT-4 win rate 达 21.9%–32.5%,说明好奇心探索带来的多样性有正向泛化效果。
  • 内在奖励频率分析:top-1 激活(约 20% tokens)已足够。将频率从 20% 扩至 60% 仅提升约 3% 多样性,而扩至 100% 时多样性不再增加但 RM Score 从 0.95 降至 0.88,说明精准激活胜过全面激活。
  • 训练曲线特征:CD-RLHF 的对齐质量收敛速度快于 RLHF(step 2500 vs 4640 达到同等水平),且多样性曲线全程稳步上升,而 Sent-Rewards 在前 1500 步多样性反而下降。
  • 故事写作扩展实验:在 ROC Story 数据集(1817 故事)上,CD-RLHF 训练的 Llama-3.2-3B 和 Gemma-7B 在创意写作任务中同样展现出更高的词汇与语义多样性。

亮点与洞察

  • 跨领域迁移的范例:好奇心驱动 RL 在游戏/机器人领域已有大量研究,本文首次将其系统性地迁移到 RLHF 中用于解决多样性问题,概念清晰、动机自然,是一个教科书级的跨领域创新。
  • Top-k 门控设计精巧:不是简单地给所有 token 加好奇心奖励,而是只在模型选了非 top-1 token 时才激活——既避免在确定性位置浪费探索预算,又确保只奖励"有意义地偏离常规"的选择。频率分析表明 20% 即为最优比例。
  • 自然衰减机制:ICM 预测误差随训练进行自然衰减(新颖状态变得"无聊"),无需手动调度,天然符合好奇心驱动 RL 的理论直觉。
  • 模块化可插拔:ICM 独立于策略模型训练,作为自监督组件可集成到任何 PPO-based 对齐框架中,实现复杂度低。

局限性 / 可改进方向

  • 仅限 PPO 框架:未探索与 DPO/GRPO 等无需 reward model 的对齐方法结合,泛化性未知。
  • 内在奖励尺度问题:作者承认内在奖励尺度远大于外在奖励,需要将 \(\eta\) 设为很小值。设计尺度更匹配的 ICM 可能带来更好性能。
  • 多样性 vs SFT 的差距仍在:虽然 CD-RLHF 大幅缓解了 RLHF 导致的多样性降低,但总体多样性仍低于 SFT 模型,trade-off 没有从根本上消除。
  • Top-k 中 k 的选择粗糙:仅测试 \(k=1\),不同任务/模型可能需要不同 \(k\) 值的自适应调整。
  • 计算开销未量化:ICM 额外参数和前向传播的训练效率影响缺少具体数据。
  • 多样性"质量"未评估:现有指标(n-gram distinct、SelfBLEU 等)衡量的是表面多样性,缺少对"多样但正确/有用"的系统分析。

相关工作与启发

  • vs Sent-Rewards (Hong et al., 2024):同样在 RL 训练中加入多样性奖励(SelfBLEU/SBERT),但只是启发式奖励工程,不如 CD-RLHF 的系统性探索机制有效。实验中 CD-RLHF 全面胜出。
  • vs f-divergence (Wang et al., 2024):用 forward KL 替代 reverse KL 提升多样性但牺牲对齐质量,CD-RLHF 实现了两者兼顾。
  • vs Quality-Diversity (Bradley et al., 2023):推理阶段的后处理方法,与 CD-RLHF 的训练时方法互补,理论上可叠加使用。
  • 启发方向:好奇心探索框架可迁移到 red-teaming(生成更多样攻击样本)、数据合成(生成更多样训练数据)等场景。ICM 的自监督训练范式也可能启发其他 token 级密集奖励的设计。

评分

  • 新颖性: ⭐⭐⭐⭐ — 好奇心驱动 RL 到 RLHF 的首次系统迁移,idea 明确优雅,但技术实现(MLP+前向动力学)相对直接
  • 实验充分度: ⭐⭐⭐⭐ — 4 模型 × 2 数据集 × 4+种多样性指标,含消融/频率分析/OOD/故事写作扩展,GPT-4+人工评估
  • 写作质量: ⭐⭐⭐⭐ — 动机推导清晰,框图直观,方法描述细致完整
  • 价值: ⭐⭐⭐⭐ — 解决 RLHF 多样性降低的实际痛点,方法可扩展可插拔,代码开源