Risk-Averse Total-Reward Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2506.21683
代码: 有
领域: 强化学习 / 风险规避
关键词: 风险规避RL, 总奖励准则, Q-learning, 熵风险度量(ERM), 熵风险值(EVaR)
一句话总结¶
提出了面向无折扣总奖励准则(TRC)的风险规避Q-learning算法(ERM-TRC和EVaR-TRC),利用ERM的可引出性(elicitability)将Bellman算子转化为随机梯度下降形式,并证明了算法的收敛保证。
研究背景与动机¶
风险规避强化学习在自动驾驶、机器人手术、医疗和金融等高风险应用中至关重要。现有风险规避RL方法主要关注折扣无限时间horizon目标,但许多实际任务(如机器人、游戏)并没有自然的折扣理由——它们有吸收终止状态,未来奖励不应被折扣。
总奖励准则(TRC) 是一种不折扣未来奖励的目标函数,推广了随机最短路径和最长路径问题。TRC的核心挑战在于:
分布估计困难: 风险规避RL需要评估回报的完整分布,而非仅期望值
Bellman算子非压缩: 风险规避TRC的Bellman算子可能不是压缩映射,不能直接套用传统model-free方法
有界性条件: 需要额外的有界条件来保证收敛,且风险参数β过大时值函数可能无界
现有model-based方法(如线性规划方法)虽然有效,但需要完整的转移概率,无法扩展到大规模问题。本文首次提出了面向TRC的model-free Q-learning算法。
方法详解¶
整体框架¶
本文设计了两个Q-learning算法: - ERM-TRC Q-learning: 面向熵风险度量(ERM)目标 - EVaR-TRC Q-learning: 面向熵风险值(EVaR)目标,通过将EVaR分解为一系列ERM问题来求解
关键设计¶
1. 基于可引出性的ERM Bellman算子¶
核心思路: 利用ERM的可引出性(elicitability),将Bellman算子重新定义为一个回归问题的解:
其中损失函数为指数损失:\(\ell_\beta(z) = \beta^{-1}(\exp(-\beta z) - 1) + z\)
设计动机: 标准Q-learning可以看作二次损失函数的随机梯度下降。类比地,ERM Q-learning沿指数损失函数\(\ell_\beta\)的导数进行梯度下降,使得算法可以在model-free设置下直接从样本估计ERM值函数。
2. ERM-TRC Q-learning的更新规则¶
Q值更新遵循指数损失梯度:
其中TD残差 \(\tilde{z}_i(\beta) = r(s,a,s'_i) + \max_{a'} \tilde{q}_i(s'_i,a',\beta) - \tilde{q}_i(s,a,\beta)\)
有界条件: 当TD残差超出\([z_{\min}, z_{\max}]\)范围时,说明β值过大导致q值无界,算法返回\(-\infty\)。
3. EVaR-TRC Q-learning¶
EVaR不具有动态一致性,无法直接使用Bellman方程。本文将EVaR优化问题分解为一系列离散化β值上的ERM问题:
通过构造有限β值集合\(\mathcal{B}(\beta_0, \delta)\),对每个β运行ERM Q-learning,最后选择使\(h(\pi,\beta)\)最大的策略,得到\(\delta\)-最优EVaR策略。
收敛性分析¶
定理4.2 (ERM-TRC收敛): 在标准假设(每个状态动作对无限次访问、步长条件\(\sum \eta_i = \infty, \sum \eta_i^2 < \infty\))和TD残差有界条件下,ERM Q-learning几乎必然收敛到最优值函数的固定点。
证明的三个关键技术差异: 1. 不依赖压缩映射性质,而是利用Bellman算子的单调性 2. 需要额外的有界性条件 3. 指数损失函数的强凸性和Lipschitz连续性提供了收敛保证(强凸常数\(l=\beta\exp(-\beta z_{\max})\),Lipschitz常数\(L=\beta\exp(-\beta z_{\min})\))
实验关键数据¶
主实验:Cliff Walking环境¶
实验在两个表格域验证:Cliff Walking (CW)和Gambler's Ruin (GR)。
| 环境 | α (风险水平) | 回报均值 | 回报标准差 | 回报范围 |
|---|---|---|---|---|
| CW | α=0.2 | 1.92 | 0.228 | (0, 2] |
| CW | α=0.6 | -0.074 | 0.228 | (-1, 2] |
α=0.2时(更风险规避),agent完全避免跌落悬崖,回报几乎全在(0,2];α=0.6时agent可能跌落悬崖导致负回报。
收敛实验(消融)¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 6个随机种子,α=0.2 | EVaR标准差=0.015 | 算法在不同种子间收敛到相似解 |
| CW域,~20000样本 | EVaR差值→0 | Q-learning收敛到LP最优值 |
| GR域,~20000样本 | EVaR差值→0 | 同样收敛到LP最优值 |
关键发现¶
- 策略可视化: 不同α值产生可解释的不同策略——α小时agent绕行远离悬崖,α大时agent更冒险走近路
- 收敛稳定性: 6个随机种子的标准差仅0.015,说明算法稳定可靠
- 与LP基准一致: Q-learning在约20000个样本后收敛到与线性规划方法相同的最优值
亮点与洞察¶
- 理论贡献突出: 首个面向无折扣总奖励准则的model-free风险规避RL算法,填补了重要理论空白
- 可引出性的巧妙利用: 将ERM的可引出性转化为随机梯度下降框架,使model-free学习成为可能
- 有界检测机制: TD残差越界时返回\(-\infty\)的设计巧妙地检测了β过大导致的发散情况
- EVaR的离散化处理: 将不满足动态一致性的EVaR问题优雅地分解为一系列ERM子问题
局限与展望¶
- 仅限表格设置: 当前算法和分析局限于表格表示,未涉及函数近似(如深度神经网络)
- 参数选择依赖先验: \(z_{\min}\)/\(z_{\max}\)的选择需要平衡——过小可能找不到好解,过大则发散检测过慢
- β₀的选择: EVaR算法需要选择初始β₀,可能需要多次Q-learning运行才能确定合适值
- 扩展到连续动作空间: 未讨论如何扩展到连续状态/动作空间
相关工作与启发¶
- 与Hau等人(2024)的折扣ERM Q-learning相比,本文处理了更具挑战性的无折扣设置
- 可引出性+SGD的思路可能推广到其他可引出风险度量(如CVaR的近似)
- 未来可结合DQN等深度RL方法,将算法扩展到大规模问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (首个TRC model-free风险规避RL算法)
- 实验充分度: ⭐⭐⭐ (仅表格域验证)
- 写作质量: ⭐⭐⭐⭐ (理论严谨,结构清晰)
- 价值: ⭐⭐⭐⭐ (重要理论基础工作)
相关论文¶
- [NeurIPS 2025] Risk-Averse Constrained Reinforcement Learning with Optimized Certainty Equivalents
- [NeurIPS 2025] Reward-Aware Proto-Representations in Reinforcement Learning
- [ICML 2025] Maximum Total Correlation Reinforcement Learning
- [NeurIPS 2025] DISCOVER: Automated Curricula for Sparse-Reward Reinforcement Learning
- [NeurIPS 2025] Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning