Curiosity-Driven Reinforcement Learning from Human Feedback¶

会议: ACL 2025 / arXiv: 2501.11463 / 代码: github / 领域: LLM对齐 / RLHF / 关键词: curiosity-driven, RLHF, diversity, intrinsic reward, exploration, ICM

一句话总结¶

CD-RLHF 将好奇心驱动探索（curiosity-driven RL）引入 RLHF，通过前向动力学模型的预测误差作为内在奖励，结合 top-k 门控过滤与 reward whitening，在不损失对齐质量的前提下大幅提升 LLM 输出多样性（Llama-3.2-1B 上 Diversity 提升 40.26%，EAD 提升 8.92%）。

研究背景与动机¶

领域现状：RLHF 是当前 LLM 对齐的标准范式——通过人类偏好数据训练奖励模型，再用 PPO 等 RL 算法微调 LLM，在安全性、指令遵循等方面取得显著成功。
核心痛点：RLHF 训练后 LLM 输出多样性显著降低，模型倾向于生成"安全"的同质化回复。Kirk et al. (2024) 和 Wu et al. (2024) 系统性地指出对齐质量与输出多样性之间存在明确的 trade-off，Wu 将此现象定义为 generative monoculture（生成单一文化）。
核心矛盾：PPO 优化使策略向高奖励区域坍缩（mode collapse），token 选择趋于保守，生成文本在词汇和语义层面都趋同。这直接限制了 LLM 在创意写作、数据合成、red-teaming 等需要多样性的下游应用。
已有尝试的不足：Hong et al. (2024) 将 SelfBLEU 和 Sentence-BERT 作为 RL 训练中的额外奖励，主要服务于 red-teaming 的测试覆盖，效果有限且不够系统。Wang et al. (2024) 用 forward KL 替代 reverse KL，虽提升多样性但牺牲对齐质量，鱼与熊掌不可兼得。Bradley et al. (2023) 在推理阶段做多样性后处理，不是训练时的根本解法。
本文切入角度：借鉴 RL 中经典的好奇心驱动探索理论（Pathak et al., 2017; Burda et al., 2019），在标准 RLHF 的稀疏外在奖励之外，引入基于状态预测误差的 token 级内在奖励，从训练时鼓励策略模型探索"新颖"状态空间。
核心 idea：用前向动力学模型的预测误差衡量状态的"新颖程度"，新颖状态获得更高内在奖励，激励 LLM 在同一 prompt 下做出更多样的 token 选择，同时外在奖励保证对齐质量不下降。

方法详解¶

整体框架¶

CD-RLHF 在标准 PPO-RLHF 基础上增加一个 Intrinsic Curiosity Module (ICM) 模块。训练流程：(1) 策略模型基于 prompt 生成 response tokens；(2) 奖励模型给出外在奖励 \(R\)；(3) ICM 逐 token 计算内在好奇心奖励；(4) 合并两种奖励后用 PPO 优化策略。数据划分比例为 SFT:RM:PPO = 20%:40%:40%。

奖励设计¶

外在奖励包含奖励模型打分 \(R\) 和 KL 惩罚项：

\[r^{(e)} = R - \beta D_{\text{KL}}(\pi_{\text{policy}}(\cdot) \| \pi_{\text{ref}}(\cdot))\]

总奖励将内在与外在奖励组合：

\[r_t = r_t^{(e)} + \eta \cdot r_t^{(i)}\]

其中 \(\eta\) 是控制内在奖励强度的折扣因子（实验中取很小值，因内在奖励尺度远大于外在奖励）。

内在好奇心模块 (ICM)¶

ICM 由特征编码器 \(\phi\)（2层MLP）和前向模型 \(f\)（2层MLP）组成。在 RLHF 语境下，状态 \(s_t = \{s_0, a_{<t}\}\)（prompt + 已生成 tokens），动作 \(a_t\) 是当前选中的 token。

前向动力学预测：给定当前状态编码 \(\phi(s_t)\) 和动作表示 \(\psi(a_t)\)，前向模型预测下一状态：

\[\hat{\phi}(s_{t+1}) = f(\phi(s_t), \psi(a_t))\]

ICM 损失（自监督训练）：

\[\mathcal{L}_{\text{ICM}} = \frac{1}{2} \|\hat{\phi}(s_{t+1}) - \phi(s_{t+1})\|_2^2\]

关键设计动机：如果模型选择了一个"出乎意料"的 token（前向模型预测误差大），说明这是新颖的探索方向，值得被奖励。随着 ICM 训练进行，频繁访问的状态预测误差持续降低——从"好奇"变成"无聊"——自然引导模型去探索新的生成路径。

Top-k 过滤门控¶

并非所有 token 位置都值得给好奇心奖励。若被选 token 已在策略分布的 top-k 候选内，说明模型"很确定"该选它，探索价值低。内在奖励定义为：

\[r_t^{(i)} = \begin{cases} 0 & \text{if } a_t \in \text{Top-}k(\pi(\cdot | s_t)) \\ \frac{1}{2}\|\hat{\phi}(s_{t+1}) - \phi(s_{t+1})\|_2 & \text{otherwise} \end{cases}\]

实验中取 \(k=1\)，约 20% 的 token 位置会被激活内在奖励。实验证明，超过 top-1 范围的 token 已足以覆盖好奇心探索的有效区间（见频率分析）。

Reward Whitening 与特征对齐¶

Reward Whitening：对内在奖励做标准化 \(r^{(i)} = (r^{(i)} - \mu) / \sigma^2\)，消除内在/外在奖励尺度差异，稳定 PPO 训练。
特征空间对齐：状态表示 \(s_t\) 从参考模型 last-layer hidden states 提取（连续空间），动作表示 \(a_t\) 从策略模型 embedding layer 提取，确保预测误差计算在一致的特征空间进行。

实验关键数据¶

主实验：TL;DR 文本摘要（Table 1 上半部分）¶

模型	方法	Diversity↑	EAD↑	SelfBLEU↓	SentBERT↓	RM Score↑
Gemma-2B	RLHF	0.2132	0.7347	0.3367	0.7024	0.90
Gemma-2B	Sent-Rewards	0.2355	0.7512	0.3053	0.6961	0.95
Gemma-2B	CD-RLHF	0.2839 (+33.2%)	0.7793 (+6.1%)	0.2590	0.6720	0.95
Gemma-7B	RLHF	0.1180	0.6602	0.4352	0.7601	2.02
Gemma-7B	CD-RLHF	0.1360 (+15.3%)	0.6816 (+3.2%)	0.4144	0.7480	2.02
Llama-1B	RLHF	0.1724	0.6869	0.3997	0.6971	1.14
Llama-1B	CD-RLHF	0.2418 (+40.3%)	0.7482 (+8.9%)	0.3108	0.6847	1.17
Llama-3B	RLHF	0.2281	0.7441	0.3163	0.6658	3.33
Llama-3B	CD-RLHF	0.2920 (+28.0%)	0.7879 (+5.9%)	0.2463	0.6551	3.49

主实验：UltraFeedback 指令跟随（Table 1 下半部分）¶

模型	方法	Diversity↑	EAD↑	SelfBLEU↓	SentBERT↓	RM Score↑
Gemma-2B	RLHF	0.1686	0.6503	0.3104	0.7672	-1.01
Gemma-2B	CD-RLHF	0.1899 (+12.6%)	0.7417 (+14.1%)	0.2858	0.7308	-0.90
Gemma-7B	RLHF	0.2345	0.7360	0.2717	0.7298	0.63
Gemma-7B	CD-RLHF	0.2654 (+13.2%)	0.7639 (+3.8%)	0.2442	0.6858	0.62
Llama-1B	RLHF	0.1683	0.6499	0.3564	0.7813	1.00
Llama-1B	CD-RLHF	0.1834 (+9.0%)	0.6891 (+6.0%)	0.3149	0.7598	0.97
Llama-3B	RLHF	0.1805	0.7031	0.3188	0.7676	1.35
Llama-3B	CD-RLHF	0.2223 (+23.2%)	0.7673 (+9.1%)	0.2531	0.7349	1.43

OOD 泛化：MT-Bench 结果（Table 2）¶

UltraFeedback 训练的模型在 OOD 基准 MT-Bench 上的表现：

模型	方法	Turn 1	Turn 2	Overall	Diversity↑	SelfBLEU↓
Gemma-2B	RLHF	6.26	4.45	5.35	0.1076	0.4383
Gemma-2B	CD-RLHF	6.91	4.45	5.68	0.1123	0.3961
Gemma-7B	RLHF	6.36	5.15	5.75	0.1173	0.4851
Gemma-7B	CD-RLHF	6.46	5.46	5.96	0.1297	0.4623
Llama-1B	RLHF	4.33	3.10	3.71	0.0818	0.4699
Llama-1B	CD-RLHF	4.78	3.57	4.18	0.0895	0.3919
Llama-3B	RLHF	6.47	5.47	5.98	0.0939	0.4489
Llama-3B	CD-RLHF	6.71	5.45	6.08	0.1133	0.3962

关键实验发现¶

多样性显著提升且对齐质量保持：所有 8 组（4模型×2数据集）实验中，CD-RLHF 的四项多样性指标均优于 RLHF，RM Score 持平或略有提升。
小模型受益更大：Llama-3.2-1B 在 TL;DR 上 Diversity 提升 40.3%，因为小模型在 RLHF 后 mode collapse 更严重。
OOD 泛化强劲：MT-Bench 上 GPT-4 评分全面超越 RLHF，CD-RLHF 相对 RLHF 的 GPT-4 win rate 达 21.9%–32.5%，说明好奇心探索带来的多样性有正向泛化效果。
内在奖励频率分析：top-1 激活（约 20% tokens）已足够。将频率从 20% 扩至 60% 仅提升约 3% 多样性，而扩至 100% 时多样性不再增加但 RM Score 从 0.95 降至 0.88，说明精准激活胜过全面激活。
训练曲线特征：CD-RLHF 的对齐质量收敛速度快于 RLHF（step 2500 vs 4640 达到同等水平），且多样性曲线全程稳步上升，而 Sent-Rewards 在前 1500 步多样性反而下降。
故事写作扩展实验：在 ROC Story 数据集（1817 故事）上，CD-RLHF 训练的 Llama-3.2-3B 和 Gemma-7B 在创意写作任务中同样展现出更高的词汇与语义多样性。

亮点与洞察¶

跨领域迁移的范例：好奇心驱动 RL 在游戏/机器人领域已有大量研究，本文首次将其系统性地迁移到 RLHF 中用于解决多样性问题，概念清晰、动机自然，是一个教科书级的跨领域创新。
Top-k 门控设计精巧：不是简单地给所有 token 加好奇心奖励，而是只在模型选了非 top-1 token 时才激活——既避免在确定性位置浪费探索预算，又确保只奖励"有意义地偏离常规"的选择。频率分析表明 20% 即为最优比例。
自然衰减机制：ICM 预测误差随训练进行自然衰减（新颖状态变得"无聊"），无需手动调度，天然符合好奇心驱动 RL 的理论直觉。
模块化可插拔：ICM 独立于策略模型训练，作为自监督组件可集成到任何 PPO-based 对齐框架中，实现复杂度低。

局限性 / 可改进方向¶

仅限 PPO 框架：未探索与 DPO/GRPO 等无需 reward model 的对齐方法结合，泛化性未知。
内在奖励尺度问题：作者承认内在奖励尺度远大于外在奖励，需要将 \(\eta\) 设为很小值。设计尺度更匹配的 ICM 可能带来更好性能。
多样性 vs SFT 的差距仍在：虽然 CD-RLHF 大幅缓解了 RLHF 导致的多样性降低，但总体多样性仍低于 SFT 模型，trade-off 没有从根本上消除。
Top-k 中 k 的选择粗糙：仅测试 \(k=1\)，不同任务/模型可能需要不同 \(k\) 值的自适应调整。
计算开销未量化：ICM 额外参数和前向传播的训练效率影响缺少具体数据。
多样性"质量"未评估：现有指标（n-gram distinct、SelfBLEU 等）衡量的是表面多样性，缺少对"多样但正确/有用"的系统分析。

评分¶

新颖性: ⭐⭐⭐⭐ — 好奇心驱动 RL 到 RLHF 的首次系统迁移，idea 明确优雅，但技术实现（MLP+前向动力学）相对直接
实验充分度: ⭐⭐⭐⭐ — 4 模型 × 2 数据集 × 4+种多样性指标，含消融/频率分析/OOD/故事写作扩展，GPT-4+人工评估
写作质量: ⭐⭐⭐⭐ — 动机推导清晰，框图直观，方法描述细致完整
价值: ⭐⭐⭐⭐ — 解决 RLHF 多样性降低的实际痛点，方法可扩展可插拔，代码开源