Online Optimization for Offline Safe Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2510.22027
代码: GitHub
领域: 强化学习
关键词: 离线安全强化学习, 极小极大优化, 多臂老虎机, 约束策略优化, 无遗憾算法
一句话总结¶
提出 O3SRL 框架,将离线安全强化学习问题形式化为极小极大优化,通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子,避免了不稳定的离策略评估,在严格安全约束下实现高奖励。
研究背景与动机¶
离线强化学习(Offline RL)从固定数据集学习决策策略,无需与环境交互,已在自动驾驶、机器人等领域取得成功。但在安全关键应用(如医疗、电力系统)中,学到的策略还必须满足累积代价约束——这就是离线安全强化学习(OSRL)。
OSRL 同时继承了离线 RL 和安全 RL 的双重挑战:(1) 分布偏移——学习到的策略可能遇到离线数据中未见过的状态-动作对;(2) 安全约束满足——需要在部署后保证代价约束成立。
现有方法的痛点非常突出:
- 基于拉格朗日松弛的方法(如 BEAR-Lag、CPQ、COptiDICE)需要求解耦合的优化问题,实践中极不稳定,要么震荡/发散,要么学出过度保守的策略(接近零奖励)。
- FISOR 等专注安全性的方法虽能产生零违规策略,但奖励性能很低。
- 关键地,严格安全约束(小代价阈值 \(\kappa\))的场景是重要但被严重忽视的问题,现有方法几乎都处理不好。
本文的切入角度是:将 OSRL 重新形式化为极小极大优化问题,用无遗憾在线优化算法来自适应地调整拉格朗日乘子,提供理论保证的同时避免不稳定的离策略评估(OPE)。
方法详解¶
整体框架¶
O3SRL 基于 CMDP(约束马尔可夫决策过程)框架。给定离线数据集 \(\mathcal{D}_{OSRL}\),目标是:
通过拉格朗日松弛将其转化为对偶问题(极小极大形式):
当 Slater 条件成立时强对偶性保证了原问题和对偶问题等价。
关键设计¶
-
离线 RL Oracle + 无遗憾更新的交替迭代:每轮迭代执行两步——(a) 将原始代价约束吸收进新的奖励函数 \(r'_i = r_i - \lambda_{t-1}(c_i - (1-\gamma)\kappa)\),调用离线 RL Oracle 优化此新奖励得到策略分布 \(D_t\);(b) 用无遗憾算法根据当前策略分布更新 \(\lambda_t\)。最终返回平均策略 \(\bar{D}\) 和平均乘子 \(\bar{\lambda}\)。理论保证收敛到极小极大均衡(Theorem 1:\(\epsilon = \epsilon_{\text{offline-RL}}(n) + R_T(\Lambda)/T\))。
-
离散化 + EXP3 多臂老虎机:通用框架的两个实践挑战——OPE 会在迭代间累积误差且计算昂贵,每轮运行离线 RL 到收敛代价太高。解决方案是将 \(\lambda\) 的连续搜索空间离散化为 \(K\) 个值 \(\{\lambda^{(1)}, \dots, \lambda^{(K)}\}\),每个 \(\lambda\) 值对应一个"臂",用 EXP3 多臂老虎机算法根据历史表现调整臂的选择概率。关键优势:MAB 算法不需要 OPE。理论保证 \(\epsilon\)-近似均衡(Theorem 2),误差由三项组成:\(\epsilon_{\text{offline-RL}}(n) + \sqrt{K/T} + 1/K\)。
-
实用近似:(a) 用随机 Oracle 替代精确 Oracle——每轮只做 \(M\) 步梯度更新而非运行到收敛(从上轮结果热启动);(b) 返回最后迭代策略 \(\pi_T\) 而非平均分布(避免存储所有轮次的策略)。实验表明,即使 \(K=2\)(仅两个臂)和小 \(M=10\) 也能获得 SOTA 性能。
损失函数 / 训练策略¶
底层离线 RL 算法默认使用 TD3+BC。搜索空间 \(\Lambda = [0, 5]\),默认 \(K=5\) 个臂。总计训练 \(T=100000\) 轮迭代,每 \(M=10\) 步梯度更新后更新臂概率。
实验关键数据¶
主实验¶
在 DSRL Bullet 基准 8 个任务上评估(严格代价阈值 \(\kappa=5\)):
| 任务 | 指标 | O3SRL | FISOR | CAPS | CDT | CPQ | 说明 |
|---|---|---|---|---|---|---|---|
| BallRun | 奖励↑ | 0.25 | 0.09 | 0.07 | 0.27 | 0.09 | O3SRL 安全前提下奖励最高 |
| BallRun | 代价↓ | 0.00 | 1.28 | 0.00 | 2.57 | 2.20 | CDT/FISOR 违反约束 |
| CarRun | 奖励↑ | 0.96 | 0.74 | 0.97 | 0.99 | 0.93 | 各方法都较高 |
| BallCircle | 奖励↑ | 0.62 | 0.32 | 0.33 | 0.61 | 0.56 | 安全代理中最优 |
| AntCircle | 奖励↑ | 0.48 | 0.24 | 0.33 | 0.45 | 0.00 | CDT 违反约束 |
核心发现:O3SRL 是唯一在所有 8 个任务上都满足安全约束的方法。其他方法或者安全但奖励很低(FISOR/CAPS),或者奖励高但频繁违反约束(CDT/CCAC/BEAR-Lag)。
消融实验¶
| 配置 | 关键发现 | 说明 |
|---|---|---|
| K=2 vs K=5 vs K=10 | K=2 已有效但奖励偏低;K=5 最佳权衡;K=10 边际收益递减 | 粗粒度离散化即可工作 |
| κ=5 → κ=20 → κ=40 | 随约束放松,策略自动转向高奖励 | 框架不依赖特定预算调参 |
| TD3+BC vs IQL | 两种底层 RL 算法性能相近 | 即插即用,不绑定特定算法 |
关键发现¶
- 即使最简单的 \(K=2\) 版本也在所有任务中保持安全,证明 EXP3 策略即使在粗粒度离散化下也有效。
- O3SRL 在严格安全约束(\(\kappa=5\))下优势尤为明显——这正是其他方法最薄弱的地方。
- 框架的即插即用特性(可替换底层离线 RL 算法)使其具备很强的通用性。
亮点与洞察¶
- 把 OSRL 的不稳定拉格朗日优化问题优雅地转化为多臂老虎机问题,彻底避免了 OPE 的累积误差——这是一个精彩的"复杂问题简单化"案例。
- 理论分析完整:从通用框架(Theorem 1)到实用近似(Theorem 2)都有收敛保证。
- 实验显示 \(K=2\) 就能工作,说明问题的实际有效自由度可能比想象中少——安全-奖励的权衡本身可能是低维的。
局限与展望¶
- 目前限于离线设置,扩展到 offline-to-online 安全 RL(先离线学、再在线微调)是自然的下一步。
- 离散化 \(\lambda\) 引入了 \(O(1/K)\) 的近似误差,在极端精细安全要求下可能不够。
- 底层依赖离线 RL 算法的质量,如果离线数据覆盖率差,整体效果受限。
- 实验仅在 DSRL Bullet 模拟环境评估,尚未涉及真实安全关键应用。
相关工作与启发¶
- 与 CAPS(按代价预算切换预训练策略集)互补:O3SRL 是端到端训练,CAPS 是组合现有策略。
- "在线优化解离线问题"的范式有更广泛的适用性——例如离线多目标 RL、离线公平 RL。
- 多臂老虎机用于超参数自适应的思路值得迁移到其他约束 RL 场景。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ — 极小极大+MAB 的框架组合新颖,理论和实践结合好
- 实验充分度: ⭐⭐⭐⭐☆ — 8个任务、多种消融,但缺乏真实场景验证
- 写作质量: ⭐⭐⭐⭐☆ — 理论推导清晰,从通用到实用的层次递进设计合理
- 价值: ⭐⭐⭐⭐☆ — 为离线安全 RL 提供了实用可靠的新方案,即插即用特性有实际工程价值
相关论文¶
- [NeurIPS 2025] Boundary-to-Region Supervision for Offline Safe Reinforcement Learning
- [ICML 2025] Online Pre-Training for Offline-to-Online Reinforcement Learning
- [ICML 2025] Extreme Value Policy Optimization for Safe Reinforcement Learning
- [NeurIPS 2025] Gradient-Variation Online Adaptivity for Accelerated Optimization with Hölder Smoothness
- [NeurIPS 2025] Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning