On Entropy Control in LLM-RL Algorithms¶

会议: ICLR 2026
arXiv: 2509.03493
代码: 无
领域: LLM训练/强化学习
关键词: 熵控制, RLVR, LLM-RL, 策略优化, 探索-利用

一句话总结¶

从理论解释为什么传统熵正则化在LLM-RL中几乎无效（因极大动作空间+稀疏最优导致熵偏差压倒优化增益），提出AEnt方法用截断熵（在缩小的token空间上计算）+自适应系数来有效平衡偏差与收益，在数学推理上持续超越baseline。

研究背景与动机¶

领域现状：策略梯度方法（PPO/GRPO/DAPO）是LLM-RL的主流。传统RL中熵正则化（SAC/A3C/PPO）通过保持策略随机性防止过早收敛，效果显著。

现有痛点：实验发现熵正则化在LLM-RL中几乎无增益。Cui等人观察到不同熵系数对验证准确率影响微乎其微。这与机器人/游戏RL中的显著效果形成矛盾。

核心矛盾：理论上熵正则化有优化优势（改善收敛），但在LLM中引入的偏差 \(O(H\log\frac{|\mathcal{A}|}{|\mathcal{A}_H^*(s_0)|^{1/H}})\) 随动作空间 \(|\mathcal{A}|\) 和最优稀疏度增大而剧增。LLM词汇表~10万+、最优token极其稀疏→偏差远大于优化增益。

切入角度：既然全词汇表上的熵偏差太大，就在更小的合理token空间上计算截断熵——只鼓励在"合理候选"中探索而非在整个词汇表中。

方法详解¶

理论分析¶

Proposition 1 (无熵控制):
- 策略熵是策略梯度的上界：\(\|\nabla V^{\pi_\theta}\| \leq 2\mathcal{H}(\pi_\theta)\)→熵崩溃=学习停滞
- 性能界：\(V^{\pi^*} - V^{\pi_\theta} \leq \frac{\epsilon}{C^{\pi_\theta}(s_0)}\)
Proposition 2 (传统熵正则化):
- 性能界：\(V^{\pi^*} - V^{\pi_\theta} \leq \frac{\epsilon^2}{2\lambda C_\lambda} + \lambda H\log\frac{|\mathcal{A}|}{|\mathcal{A}_H^*|^{1/H}}\)
- 优化项改善(\(\epsilon^2/2\lambda\))但偏差项 \(\lambda H\log|\mathcal{A}|/|\mathcal{A}_H^*|^{1/H}\) 在LLM中主导

AEnt方法¶

截断熵 (Clamped Entropy):
- 功能：不在全词汇表上算熵，而在top-k token上重归一化后计算
- 核心思路：定义子空间 \(\mathcal{A}_k(s) = \text{top-k tokens}\)，重归一化策略 \(\tilde{\pi}(a|s) = \pi(a|s)/\sum_{a' \in \mathcal{A}_k} \pi(a'|s)\)，用 \(\tilde{\pi}\) 算熵
- 设计动机：只在合理候选中鼓励探索→偏差从 \(\log|\mathcal{A}|\) 降为 \(\log k\)（\(k \ll |\mathcal{A}|\)）
自适应系数:
- 功能：根据当前截断熵值自动调节系数 \(\lambda\)
- 核心思路：截断熵高→\(\lambda\)小（已经足够随机），截断熵低→\(\lambda\)大（需要更多探索）
- 设计动机：固定 \(\lambda\) 无法适应训练过程中熵的动态变化

损失函数¶

\(\mathcal{L} = \mathcal{L}_{\text{PO}}(\theta) + \lambda \cdot \min(\mathcal{H}_k(\pi_\theta), H_{\text{target}})\)
截断到目标熵后系数自适应调节

实验关键数据¶

数学推理¶

方法	AIME	AMC	MATH500	Minerva
GRPO (无熵)	基线	基线	基线	基线
GRPO + 传统熵	~基线	~基线	~基线	~基线
GRPO + AEnt	↑	↑	↑	↑

多模型验证¶

基础模型	AEnt增幅	说明
Qwen2.5-Math-1.5B	显著	小模型获益更多
Qwen2.5-7B	显著	大模型也有效

关键发现¶

传统熵正则化确实几乎无增益（验证了之前的观察）
AEnt在所有基准和模型上持续改善→截断熵有效解决了偏差问题
合成MDP实验证实：当最优动作数<5且\(|\mathcal{A}|=10^5\)时传统熵无效，AEnt仍有效
自适应系数比固定系数更稳定

亮点与洞察¶

理论解释LLM-RL的长期困惑：为什么传统熵在LLM中不work？因为 \(O(H\log|\mathcal{A}|)\) 的偏差在\(|\mathcal{A}|=10^5\)时压倒了一切。这个解释简洁有力。
截断熵的直觉：不应鼓励模型探索所有10万个token，只应在合理候选中保持多样性。从top-1000中随机选比从全词汇表中随机选合理得多。
偏差-增益权衡的量化：Proposition 1和2给出了可操作的理论指导——当\(\log|\mathcal{A}|\)大且最优稀疏时，需要特殊处理。

局限与展望¶

top-k的k需要手动设置——自适应k可能更好
理论分析基于softmax策略假设，实际LLM有更复杂的结构
仅在数学推理上验证，代码/通用推理效果未知
截断熵可能过度限制某些需要大范围探索的场景

评分¶

新颖性: ⭐⭐⭐⭐ 理论解释+截断熵方案都有洞察力
实验充分度: ⭐⭐⭐⭐ 多模型+多基准+合成MDP验证
写作质量: ⭐⭐⭐⭐ 理论与实践结合自然
价值: ⭐⭐⭐⭐⭐ 解决了LLM-RL训练中一个重要的实践问题