跳转至

Risk-Sensitive Exponential Actor Critic

会议: AAAI2026
arXiv: 2602.07202
领域: reinforcement_learning
关键词: risk-sensitive RL, entropic risk measure, policy gradient, actor-critic, numerical stability

一句话总结

针对 entropic risk measure 下 policy gradient 的高方差和数值不稳定问题,推导了完整的 on/off-policy 风险敏感策略梯度定理,并提出 rsEAC 算法,通过 log-domain critic 参数化和梯度归一化裁剪机制实现稳定的风险敏感连续控制。

研究背景与动机

标准 RL 优化期望回报,但在自动驾驶、机器人、金融等场景中需要风险感知的决策。Entropic risk measure 是常用的风险度量:

\[J^\beta(\pi_\theta) = \frac{1}{\beta} \log \mathbb{E}_{p_\pi(\tau)} \left[ e^{\beta \sum_t r_t} \right]\]
  • \(\beta > 0\):risk-seeking(寻险)
  • \(\beta < 0\):risk-averse(避险)
  • \(\beta \to 0\):退化为标准 risk-neutral 目标

现有方法的核心困难: - likelihood ratio trick 估计梯度需要完整轨迹,且被 exponentiated return 缩放,导致高方差和数值不稳定 - 指数值函数 \(Z^\beta(s,a) = e^{\beta Q(s,a)}\) 在函数逼近中极易溢出/下溢 - 现有 model-free 方法(如 R-AC)仅能处理简单任务和 tabular 设定

方法详解

风险敏感策略梯度定理

Theorem 1(随机策略)

\[\nabla_\theta J^\beta = \frac{1}{\beta} \int_S \rho_\pi^*(s) \int_A \nabla_\theta \pi_\theta(a|s) \cdot e^{\beta(Q^\beta(s,a) - V^\beta(s))} \, da \, ds\]

其中 \(\rho_\pi^*\) 为 exponential twisted dynamics 下的状态分布。关键区别:用指数化优势替代 Q 值,引入数值风险。

Theorem 2(确定性策略)

\[\nabla_\theta J^\beta = \int_S \rho_\mu^*(s) \nabla_\theta \mu_\theta(s) \nabla_a Q^\beta_{\mu_\theta}(s,a) \big|_{a=\mu_\theta(s)} \, ds\]

避免了指数项和动作积分,更适合实际使用。并证明 off-policy 近似下的 deterministic policy improvement(Theorem 3)。

Log-domain Critic 参数化

直接学习 \(Z_\psi(s,a) = e^{\beta Q(s,a)}\) 会导致数值溢出/下溢。关键改进:

  • 参数化为 \(Z_\psi(s,a) = e^{Q_\psi(s,a)}\),其中 \(Q_\psi\) 为神经网络
  • \(\frac{1}{\beta} Q_\psi(s,a)\) 近似 soft-value function
  • 梯度在 log-domain 计算,天然更稳定

梯度稳定化机制

Exponential TD loss 的梯度形如 \(e^x(e^x - e^y)\),需要稳定化:

  1. Helper function\(f(x,y) = (1-e^{y-x})\)\((e^{x-y}-1)\),值域 \([-1,1]\),保证稳定
  2. Batch normalization:对指数前导项减去 batch 内的均值 \(z\) 进行归一化
  3. Gradient clipping:限制指数参数范围,防止梯度爆炸/消失

rsEAC 算法

基于 TD3 框架构建: - Twin critics:两个 \(Q_\psi\) 网络,\(\beta > 0\) 时取 min,\(\beta < 0\) 时取 max(控制过估计方向) - Actor:确定性策略 \(\mu_\theta\),按 off-policy deterministic gradient 更新 - Exploration:添加高斯噪声

实验关键数据

GridWorld(Tabular)

验证 \(\beta\) 的风险调制作用: - \(\beta = -1\):避险策略绕过悬崖区域走远路 - \(\beta = 1\):寻险策略紧贴悬崖走最短路 - \(|\beta|\) 较大时指数值函数数值爆炸(验证了稳定化的必要性)

Inverted Pendulum

  • rsEAC 在 \(\beta=1\)\(\beta=-1\) 下均能学到高回报策略
  • R-AC 因数值不稳定导致策略质量差且缺乏风险敏感性

MuJoCo 风险变体(Swimmer / HalfCheetah / Ant)

加入随机噪声风险区域(\(\mathcal{N}(0,10^2)\)\(\mathcal{N}(0,7^2)\)):

方法 风险特征 平均回报表现
rsEAC 低风险区域访问率 与 MVPI 相当
R-AC 数值不稳定 所有任务最差
MVPI 低风险访问率 Ant 较差
MG (PPO) 中等避险 中等
  • rsEAC 在所有任务上均优于 R-AC,验证稳定化机制的关键作用
  • 在高维 Ant 任务上优于 MVPI

稳定性对比(CartPole)

  • \(Z_\psi\) 直接学习:值函数估计溢出/下溢,4 种 \(\beta\) 仅 1 种学到最优策略
  • \(Q_\psi\)(本文)+ 梯度归一化裁剪:所有 \(\beta\) 设定均学到最优策略

亮点

  • 完整理论框架:首次为 entropic risk measure 推导 on/off-policy × stochastic/deterministic 的四种策略梯度定理
  • 实用稳定化方案:log-domain 参数化 + batch normalization + clipping,解决了指数值函数学习的长期痛点
  • 风险可调:单参数 \(\beta\) 控制 risk-seeking/averse 程度
  • 首个可处理复杂连续任务的 model-free 风险敏感 actor-critic

局限性

  • 指数函数的固有不稳定性无法完全消除,极端 \(\beta\) 下仍可能失效
  • 风险参数 \(\beta\) 需要针对不同任务调优,缺乏自适应机制
  • 仅在 MuJoCo 连续控制任务上验证,未测试更多安全关键场景

评分

  • 新颖性: ⭐⭐⭐⭐ — 策略梯度定理推导严谨,稳定化方案有明确的工程贡献
  • 实验充分度: ⭐⭐⭐ — tabular + 连续控制覆盖合理,但任务多样性偏窄
  • 写作质量: ⭐⭐⭐⭐ — 理论呈现清晰,数值问题可视化直观
  • 价值: ⭐⭐⭐⭐ — 为风险敏感 RL 的实际应用铺平道路

相关论文