跳转至

On Entropy Control in LLM-RL Algorithms

会议: ICLR 2026
arXiv: 2509.03493
代码: 无
领域: LLM训练/强化学习
关键词: 熵控制, RLVR, LLM-RL, 策略优化, 探索-利用

一句话总结

从理论解释为什么传统熵正则化在LLM-RL中几乎无效(因极大动作空间+稀疏最优导致熵偏差压倒优化增益),提出AEnt方法用截断熵(在缩小的token空间上计算)+自适应系数来有效平衡偏差与收益,在数学推理上持续超越baseline。

研究背景与动机

领域现状:策略梯度方法(PPO/GRPO/DAPO)是LLM-RL的主流。传统RL中熵正则化(SAC/A3C/PPO)通过保持策略随机性防止过早收敛,效果显著。

现有痛点:实验发现熵正则化在LLM-RL中几乎无增益。Cui等人观察到不同熵系数对验证准确率影响微乎其微。这与机器人/游戏RL中的显著效果形成矛盾。

核心矛盾:理论上熵正则化有优化优势(改善收敛),但在LLM中引入的偏差 \(O(H\log\frac{|\mathcal{A}|}{|\mathcal{A}_H^*(s_0)|^{1/H}})\) 随动作空间 \(|\mathcal{A}|\) 和最优稀疏度增大而剧增。LLM词汇表~10万+、最优token极其稀疏→偏差远大于优化增益。

切入角度:既然全词汇表上的熵偏差太大,就在更小的合理token空间上计算截断熵——只鼓励在"合理候选"中探索而非在整个词汇表中。

方法详解

理论分析

  1. Proposition 1 (无熵控制):

    • 策略熵是策略梯度的上界:\(\|\nabla V^{\pi_\theta}\| \leq 2\mathcal{H}(\pi_\theta)\)→熵崩溃=学习停滞
    • 性能界:\(V^{\pi^*} - V^{\pi_\theta} \leq \frac{\epsilon}{C^{\pi_\theta}(s_0)}\)
  2. Proposition 2 (传统熵正则化):

    • 性能界:\(V^{\pi^*} - V^{\pi_\theta} \leq \frac{\epsilon^2}{2\lambda C_\lambda} + \lambda H\log\frac{|\mathcal{A}|}{|\mathcal{A}_H^*|^{1/H}}\)
    • 优化项改善(\(\epsilon^2/2\lambda\))但偏差项 \(\lambda H\log|\mathcal{A}|/|\mathcal{A}_H^*|^{1/H}\) 在LLM中主导

AEnt方法

  1. 截断熵 (Clamped Entropy):

    • 功能:不在全词汇表上算熵,而在top-k token上重归一化后计算
    • 核心思路:定义子空间 \(\mathcal{A}_k(s) = \text{top-k tokens}\),重归一化策略 \(\tilde{\pi}(a|s) = \pi(a|s)/\sum_{a' \in \mathcal{A}_k} \pi(a'|s)\),用 \(\tilde{\pi}\) 算熵
    • 设计动机:只在合理候选中鼓励探索→偏差从 \(\log|\mathcal{A}|\) 降为 \(\log k\)\(k \ll |\mathcal{A}|\)
  2. 自适应系数:

    • 功能:根据当前截断熵值自动调节系数 \(\lambda\)
    • 核心思路:截断熵高→\(\lambda\)小(已经足够随机),截断熵低→\(\lambda\)大(需要更多探索)
    • 设计动机:固定 \(\lambda\) 无法适应训练过程中熵的动态变化

损失函数

  • \(\mathcal{L} = \mathcal{L}_{\text{PO}}(\theta) + \lambda \cdot \min(\mathcal{H}_k(\pi_\theta), H_{\text{target}})\)
  • 截断到目标熵后系数自适应调节

实验关键数据

数学推理

方法 AIME AMC MATH500 Minerva
GRPO (无熵) 基线 基线 基线 基线
GRPO + 传统熵 ~基线 ~基线 ~基线 ~基线
GRPO + AEnt

多模型验证

基础模型 AEnt增幅 说明
Qwen2.5-Math-1.5B 显著 小模型获益更多
Qwen2.5-7B 显著 大模型也有效

关键发现

  • 传统熵正则化确实几乎无增益(验证了之前的观察)
  • AEnt在所有基准和模型上持续改善→截断熵有效解决了偏差问题
  • 合成MDP实验证实:当最优动作数<5且\(|\mathcal{A}|=10^5\)时传统熵无效,AEnt仍有效
  • 自适应系数比固定系数更稳定

亮点与洞察

  • 理论解释LLM-RL的长期困惑:为什么传统熵在LLM中不work?因为 \(O(H\log|\mathcal{A}|)\) 的偏差在\(|\mathcal{A}|=10^5\)时压倒了一切。这个解释简洁有力。
  • 截断熵的直觉:不应鼓励模型探索所有10万个token,只应在合理候选中保持多样性。从top-1000中随机选比从全词汇表中随机选合理得多。
  • 偏差-增益权衡的量化:Proposition 1和2给出了可操作的理论指导——当\(\log|\mathcal{A}|\)大且最优稀疏时,需要特殊处理。

局限与展望

  • top-k的k需要手动设置——自适应k可能更好
  • 理论分析基于softmax策略假设,实际LLM有更复杂的结构
  • 仅在数学推理上验证,代码/通用推理效果未知
  • 截断熵可能过度限制某些需要大范围探索的场景

相关工作与启发

  • vs DAPO: DAPO通过clip/约束间接控制熵,AEnt直接在截断空间上做正则化
  • vs Cui等人: 他们观察到熵bonus无效但未给出理论解释,本文提供了解释+解法
  • vs SAC: SAC的熵正则化在机器人任务中成功因为 \(|\mathcal{A}|\) 小(数十到数百),LLM的 \(|\mathcal{A}|\) 差几个数量级

评分

  • 新颖性: ⭐⭐⭐⭐ 理论解释+截断熵方案都有洞察力
  • 实验充分度: ⭐⭐⭐⭐ 多模型+多基准+合成MDP验证
  • 写作质量: ⭐⭐⭐⭐ 理论与实践结合自然
  • 价值: ⭐⭐⭐⭐⭐ 解决了LLM-RL训练中一个重要的实践问题

相关论文