Understanding and Improving Hyperbolic Deep Reinforcement Learning¶
会议: ICLR2026
arXiv: 2512.14202
代码: GitHub
领域: llm_agent / reinforcement learning
关键词: 双曲空间, PPO, 梯度分析, RMSNorm, 分类值损失
一句话总结¶
通过形式化梯度分析揭示双曲深度 RL 的训练不稳定根源(大范数嵌入导致信赖域违反),提出 Hyper++ 三组件方案(RMSNorm + 学习缩放 + 分类值损失)实现稳定训练并超越现有方法。
背景与动机¶
- 序贯决策本质上产生层级数据:每个状态分支为指数多的后续状态,形成树状结构
- 欧几里得空间体积多项式增长,无法无损嵌入指数增长的层级结构——几何失配
- 双曲空间体积指数增长,天然适合层级嵌入,在分类/度量学习中已有成功应用
- 但双曲深度 RL 面临严重优化困难:非平稳性放大梯度不稳定,缺乏形式化分析
- 在 PPO 中,Poincaré Ball 的保角因子 λ 随嵌入靠近边界而爆炸,导致信赖域违反
- 现有缓解方案(SpectralNorm + S-RYM 缩放)限制整个编码器的表达能力
方法详解¶
Hyper++ 三大组件:
- RMSNorm 正则化(替代 SpectralNorm)
- 仅在编码器最后线性层的预激活输出应用 RMSNorm + 1/√d 缩放
- 保证嵌入范数有界(Proposition 4.2):‖x̂‖₂ < 1(对 ReLU/TanH)
-
不限制编码器其他层的表达能力(vs SpectralNorm 需全层应用)
-
可学习特征缩放
- 学习标量 ξ_θ 通过 sigmoid 缩放正则化后的嵌入
- 将 Poincaré Ball 可用半径从 0.76 扩展到 0.95,体积增益 (0.95/0.76)^d
-
d=32 时增加约 1200 倍可用体积
-
分类值损失(HL-Gauss 替代 MSE)
- 双曲 MLR 层输出超平面距离,适合分类而非回归
- 与双曲几何的超平面距离天然对齐
- 稳定非平稳目标下的 critic 学习
模型选择:使用 Hyperboloid 模型替代 Poincaré Ball,避免保角因子不稳定
实验关键数据¶
ProcGen (PPO, 16 环境): - Hyper++ IQM: 0.40 vs Hyper+S-RYM: 0.26 vs Euclidean: 0.30(测试集) - 训练回报提升 52%,前向传播时间减少 ~30% - 消融:去掉 RMSNorm → 完全学习失败;去掉缩放 → 明显下降
Atari-5 (DDQN): - Hyper++ 在全部 5 个游戏的所有聚合指标上显著超越欧几里得和双曲基线 - NameThisGame 和 Q*bert 增益最大
关键消融发现: - SpectralNorm(全层或仅倒数层)→ 均无法学习 - 欧几里得 + HL-Gauss → 反而不如 MSE(分类损失专为双曲设计) - 欧几里得 + 全套正则化 IQM=0.35 < Hyper++ (Hyperboloid) IQM=0.40
亮点¶
- 首次系统梯度分析:闭式推导 Poincaré Ball 和 Hyperboloid MLR + 指数映射的梯度
- 证明 SpectralNorm 不足(Lemma 4.1:需全层应用才有效,但限制表达力)
- Proposition 4.2 保证 RMSNorm 的范数有界性质,理论驱动的设计
- 组件间协同效应:双曲几何 + HL-Gauss 比各自单独更优
局限性 / 可改进方向¶
- 聚焦优化视角,未分析双曲表示实际学到了什么层级结构
- 未研究哪些环境最适合双曲表示
- 几何选择与不同 RL 算法的交互未探索
- ProcGen Phoenix 上出现可塑性丧失现象,未深入讨论
与相关工作的对比¶
- vs Cetin et al. (2023) Hyper+S-RYM:消除 SpectralNorm 的表达力-稳定性权衡
- vs Euclidean PPO/PPG/DDQN:双曲表示 + 正确正则化 = 一致性优势
- vs 双曲深度学习 (Ganea, Shimizu, Bdeir):首次系统解决 RL 中的双曲优化问题
评分¶
- 新颖性: ⭐⭐⭐⭐ 梯度分析驱动的双曲 RL 修复,理论+实践结合
- 实验充分度: ⭐⭐⭐⭐⭐ ProcGen 16 环境 + Atari-5 + 大量消融 + 多 RL 算法
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,图表质量高
- 价值: ⭐⭐⭐⭐ 为双曲深度 RL 提供可靠的实践方案