跳转至

Online Optimization for Offline Safe Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2510.22027
代码: GitHub
领域: 强化学习
关键词: 离线安全强化学习, 极小极大优化, 多臂老虎机, 约束策略优化, 无遗憾算法

一句话总结

提出 O3SRL 框架,将离线安全强化学习问题形式化为极小极大优化,通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子,避免了不稳定的离策略评估,在严格安全约束下实现高奖励。

研究背景与动机

离线强化学习(Offline RL)从固定数据集学习决策策略,无需与环境交互,已在自动驾驶、机器人等领域取得成功。但在安全关键应用(如医疗、电力系统)中,学到的策略还必须满足累积代价约束——这就是离线安全强化学习(OSRL)。

OSRL 同时继承了离线 RL 和安全 RL 的双重挑战:(1) 分布偏移——学习到的策略可能遇到离线数据中未见过的状态-动作对;(2) 安全约束满足——需要在部署后保证代价约束成立。

现有方法的痛点非常突出:

  • 基于拉格朗日松弛的方法(如 BEAR-Lag、CPQ、COptiDICE)需要求解耦合的优化问题,实践中极不稳定,要么震荡/发散,要么学出过度保守的策略(接近零奖励)。
  • FISOR 等专注安全性的方法虽能产生零违规策略,但奖励性能很低。
  • 关键地,严格安全约束(小代价阈值 \(\kappa\))的场景是重要但被严重忽视的问题,现有方法几乎都处理不好。

本文的切入角度是:将 OSRL 重新形式化为极小极大优化问题,用无遗憾在线优化算法来自适应地调整拉格朗日乘子,提供理论保证的同时避免不稳定的离策略评估(OPE)。

方法详解

整体框架

O3SRL 基于 CMDP(约束马尔可夫决策过程)框架。给定离线数据集 \(\mathcal{D}_{OSRL}\),目标是:

\[\max_{\pi} \mathbb{E}_{\tau \sim \pi}[R(\tau)] \quad \text{s.t.} \quad \mathbb{E}_{\tau \sim \pi}[C(\tau)] \leq \kappa\]

通过拉格朗日松弛将其转化为对偶问题(极小极大形式):

\[\min_{\lambda \geq 0} \max_{D \in \Delta\Pi} L(D, \lambda) = \mathbb{E}_{\pi \sim D}[V^{\pi}_{r - \lambda(c - (1-\gamma)\kappa)}]\]

当 Slater 条件成立时强对偶性保证了原问题和对偶问题等价。

关键设计

  1. 离线 RL Oracle + 无遗憾更新的交替迭代:每轮迭代执行两步——(a) 将原始代价约束吸收进新的奖励函数 \(r'_i = r_i - \lambda_{t-1}(c_i - (1-\gamma)\kappa)\),调用离线 RL Oracle 优化此新奖励得到策略分布 \(D_t\);(b) 用无遗憾算法根据当前策略分布更新 \(\lambda_t\)。最终返回平均策略 \(\bar{D}\) 和平均乘子 \(\bar{\lambda}\)。理论保证收敛到极小极大均衡(Theorem 1:\(\epsilon = \epsilon_{\text{offline-RL}}(n) + R_T(\Lambda)/T\))。

  2. 离散化 + EXP3 多臂老虎机:通用框架的两个实践挑战——OPE 会在迭代间累积误差且计算昂贵,每轮运行离线 RL 到收敛代价太高。解决方案是将 \(\lambda\) 的连续搜索空间离散化为 \(K\) 个值 \(\{\lambda^{(1)}, \dots, \lambda^{(K)}\}\),每个 \(\lambda\) 值对应一个"臂",用 EXP3 多臂老虎机算法根据历史表现调整臂的选择概率。关键优势:MAB 算法不需要 OPE。理论保证 \(\epsilon\)-近似均衡(Theorem 2),误差由三项组成:\(\epsilon_{\text{offline-RL}}(n) + \sqrt{K/T} + 1/K\)

  3. 实用近似:(a) 用随机 Oracle 替代精确 Oracle——每轮只做 \(M\) 步梯度更新而非运行到收敛(从上轮结果热启动);(b) 返回最后迭代策略 \(\pi_T\) 而非平均分布(避免存储所有轮次的策略)。实验表明,即使 \(K=2\)(仅两个臂)和小 \(M=10\) 也能获得 SOTA 性能。

损失函数 / 训练策略

底层离线 RL 算法默认使用 TD3+BC。搜索空间 \(\Lambda = [0, 5]\),默认 \(K=5\) 个臂。总计训练 \(T=100000\) 轮迭代,每 \(M=10\) 步梯度更新后更新臂概率。

实验关键数据

主实验

在 DSRL Bullet 基准 8 个任务上评估(严格代价阈值 \(\kappa=5\)):

任务 指标 O3SRL FISOR CAPS CDT CPQ 说明
BallRun 奖励↑ 0.25 0.09 0.07 0.27 0.09 O3SRL 安全前提下奖励最高
BallRun 代价↓ 0.00 1.28 0.00 2.57 2.20 CDT/FISOR 违反约束
CarRun 奖励↑ 0.96 0.74 0.97 0.99 0.93 各方法都较高
BallCircle 奖励↑ 0.62 0.32 0.33 0.61 0.56 安全代理中最优
AntCircle 奖励↑ 0.48 0.24 0.33 0.45 0.00 CDT 违反约束

核心发现:O3SRL 是唯一在所有 8 个任务上都满足安全约束的方法。其他方法或者安全但奖励很低(FISOR/CAPS),或者奖励高但频繁违反约束(CDT/CCAC/BEAR-Lag)。

消融实验

配置 关键发现 说明
K=2 vs K=5 vs K=10 K=2 已有效但奖励偏低;K=5 最佳权衡;K=10 边际收益递减 粗粒度离散化即可工作
κ=5 → κ=20 → κ=40 随约束放松,策略自动转向高奖励 框架不依赖特定预算调参
TD3+BC vs IQL 两种底层 RL 算法性能相近 即插即用,不绑定特定算法

关键发现

  • 即使最简单的 \(K=2\) 版本也在所有任务中保持安全,证明 EXP3 策略即使在粗粒度离散化下也有效。
  • O3SRL 在严格安全约束\(\kappa=5\))下优势尤为明显——这正是其他方法最薄弱的地方。
  • 框架的即插即用特性(可替换底层离线 RL 算法)使其具备很强的通用性。

亮点与洞察

  • 把 OSRL 的不稳定拉格朗日优化问题优雅地转化为多臂老虎机问题,彻底避免了 OPE 的累积误差——这是一个精彩的"复杂问题简单化"案例。
  • 理论分析完整:从通用框架(Theorem 1)到实用近似(Theorem 2)都有收敛保证。
  • 实验显示 \(K=2\) 就能工作,说明问题的实际有效自由度可能比想象中少——安全-奖励的权衡本身可能是低维的。

局限与展望

  • 目前限于离线设置,扩展到 offline-to-online 安全 RL(先离线学、再在线微调)是自然的下一步。
  • 离散化 \(\lambda\) 引入了 \(O(1/K)\) 的近似误差,在极端精细安全要求下可能不够。
  • 底层依赖离线 RL 算法的质量,如果离线数据覆盖率差,整体效果受限。
  • 实验仅在 DSRL Bullet 模拟环境评估,尚未涉及真实安全关键应用。

相关工作与启发

  • 与 CAPS(按代价预算切换预训练策略集)互补:O3SRL 是端到端训练,CAPS 是组合现有策略。
  • "在线优化解离线问题"的范式有更广泛的适用性——例如离线多目标 RL、离线公平 RL。
  • 多臂老虎机用于超参数自适应的思路值得迁移到其他约束 RL 场景。

评分

  • 新颖性: ⭐⭐⭐⭐☆ — 极小极大+MAB 的框架组合新颖,理论和实践结合好
  • 实验充分度: ⭐⭐⭐⭐☆ — 8个任务、多种消融,但缺乏真实场景验证
  • 写作质量: ⭐⭐⭐⭐☆ — 理论推导清晰,从通用到实用的层次递进设计合理
  • 价值: ⭐⭐⭐⭐☆ — 为离线安全 RL 提供了实用可靠的新方案,即插即用特性有实际工程价值

相关论文