Online Optimization for Offline Safe Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2510.22027
代码: GitHub
领域: 强化学习
关键词: 离线安全强化学习, 极小极大优化, 多臂老虎机, 约束策略优化, 无遗憾算法

一句话总结¶

提出 O3SRL 框架，将离线安全强化学习问题形式化为极小极大优化，通过结合离线 RL oracle 和基于 EXP3 多臂老虎机的在线优化来自适应调整拉格朗日乘子，避免了不稳定的离策略评估，在严格安全约束下实现高奖励。

研究背景与动机¶

离线强化学习（Offline RL）从固定数据集学习决策策略，无需与环境交互，已在自动驾驶、机器人等领域取得成功。但在安全关键应用（如医疗、电力系统）中，学到的策略还必须满足累积代价约束——这就是离线安全强化学习（OSRL）。

OSRL 同时继承了离线 RL 和安全 RL 的双重挑战：(1) 分布偏移——学习到的策略可能遇到离线数据中未见过的状态-动作对；(2) 安全约束满足——需要在部署后保证代价约束成立。

现有方法的痛点非常突出：

基于拉格朗日松弛的方法（如 BEAR-Lag、CPQ、COptiDICE）需要求解耦合的优化问题，实践中极不稳定，要么震荡/发散，要么学出过度保守的策略（接近零奖励）。
FISOR 等专注安全性的方法虽能产生零违规策略，但奖励性能很低。
关键地，严格安全约束（小代价阈值 \(\kappa\)）的场景是重要但被严重忽视的问题，现有方法几乎都处理不好。

本文的切入角度是：将 OSRL 重新形式化为极小极大优化问题，用无遗憾在线优化算法来自适应地调整拉格朗日乘子，提供理论保证的同时避免不稳定的离策略评估（OPE）。

方法详解¶

整体框架¶

O3SRL 基于 CMDP（约束马尔可夫决策过程）框架。给定离线数据集 \(\mathcal{D}_{OSRL}\)，目标是：

\[\max_{\pi} \mathbb{E}_{\tau \sim \pi}[R(\tau)] \quad \text{s.t.} \quad \mathbb{E}_{\tau \sim \pi}[C(\tau)] \leq \kappa\]

通过拉格朗日松弛将其转化为对偶问题（极小极大形式）：

\[\min_{\lambda \geq 0} \max_{D \in \Delta\Pi} L(D, \lambda) = \mathbb{E}_{\pi \sim D}[V^{\pi}_{r - \lambda(c - (1-\gamma)\kappa)}]\]

当 Slater 条件成立时强对偶性保证了原问题和对偶问题等价。

关键设计¶

离线 RL Oracle + 无遗憾更新的交替迭代：每轮迭代执行两步——(a) 将原始代价约束吸收进新的奖励函数 \(r'_i = r_i - \lambda_{t-1}(c_i - (1-\gamma)\kappa)\)，调用离线 RL Oracle 优化此新奖励得到策略分布 \(D_t\)；(b) 用无遗憾算法根据当前策略分布更新 \(\lambda_t\)。最终返回平均策略 \(\bar{D}\) 和平均乘子 \(\bar{\lambda}\)。理论保证收敛到极小极大均衡（Theorem 1：\(\epsilon = \epsilon_{\text{offline-RL}}(n) + R_T(\Lambda)/T\)）。
离散化 + EXP3 多臂老虎机：通用框架的两个实践挑战——OPE 会在迭代间累积误差且计算昂贵，每轮运行离线 RL 到收敛代价太高。解决方案是将 \(\lambda\) 的连续搜索空间离散化为 \(K\) 个值 \(\{\lambda^{(1)}, \dots, \lambda^{(K)}\}\)，每个 \(\lambda\) 值对应一个"臂"，用 EXP3 多臂老虎机算法根据历史表现调整臂的选择概率。关键优势：MAB 算法不需要 OPE。理论保证 \(\epsilon\)-近似均衡（Theorem 2），误差由三项组成：\(\epsilon_{\text{offline-RL}}(n) + \sqrt{K/T} + 1/K\)。
实用近似：(a) 用随机 Oracle 替代精确 Oracle——每轮只做 \(M\) 步梯度更新而非运行到收敛（从上轮结果热启动）；(b) 返回最后迭代策略 \(\pi_T\) 而非平均分布（避免存储所有轮次的策略）。实验表明，即使 \(K=2\)（仅两个臂）和小 \(M=10\) 也能获得 SOTA 性能。

损失函数 / 训练策略¶

底层离线 RL 算法默认使用 TD3+BC。搜索空间 \(\Lambda = [0, 5]\)，默认 \(K=5\) 个臂。总计训练 \(T=100000\) 轮迭代，每 \(M=10\) 步梯度更新后更新臂概率。

实验关键数据¶

主实验¶

在 DSRL Bullet 基准 8 个任务上评估（严格代价阈值 \(\kappa=5\)）：

任务	指标	O3SRL	FISOR	CAPS	CDT	CPQ	说明
BallRun	奖励↑	0.25	0.09	0.07	0.27	0.09	O3SRL 安全前提下奖励最高
BallRun	代价↓	0.00	1.28	0.00	2.57	2.20	CDT/FISOR 违反约束
CarRun	奖励↑	0.96	0.74	0.97	0.99	0.93	各方法都较高
BallCircle	奖励↑	0.62	0.32	0.33	0.61	0.56	安全代理中最优
AntCircle	奖励↑	0.48	0.24	0.33	0.45	0.00	CDT 违反约束

核心发现：O3SRL 是唯一在所有 8 个任务上都满足安全约束的方法。其他方法或者安全但奖励很低（FISOR/CAPS），或者奖励高但频繁违反约束（CDT/CCAC/BEAR-Lag）。

消融实验¶

配置	关键发现	说明
K=2 vs K=5 vs K=10	K=2 已有效但奖励偏低；K=5 最佳权衡；K=10 边际收益递减	粗粒度离散化即可工作
κ=5 → κ=20 → κ=40	随约束放松，策略自动转向高奖励	框架不依赖特定预算调参
TD3+BC vs IQL	两种底层 RL 算法性能相近	即插即用，不绑定特定算法

关键发现¶

即使最简单的 \(K=2\) 版本也在所有任务中保持安全，证明 EXP3 策略即使在粗粒度离散化下也有效。
O3SRL 在严格安全约束（\(\kappa=5\)）下优势尤为明显——这正是其他方法最薄弱的地方。
框架的即插即用特性（可替换底层离线 RL 算法）使其具备很强的通用性。

亮点与洞察¶

把 OSRL 的不稳定拉格朗日优化问题优雅地转化为多臂老虎机问题，彻底避免了 OPE 的累积误差——这是一个精彩的"复杂问题简单化"案例。
理论分析完整：从通用框架（Theorem 1）到实用近似（Theorem 2）都有收敛保证。
实验显示 \(K=2\) 就能工作，说明问题的实际有效自由度可能比想象中少——安全-奖励的权衡本身可能是低维的。

局限与展望¶

目前限于离线设置，扩展到 offline-to-online 安全 RL（先离线学、再在线微调）是自然的下一步。
离散化 \(\lambda\) 引入了 \(O(1/K)\) 的近似误差，在极端精细安全要求下可能不够。
底层依赖离线 RL 算法的质量，如果离线数据覆盖率差，整体效果受限。
实验仅在 DSRL Bullet 模拟环境评估，尚未涉及真实安全关键应用。

评分¶

新颖性: ⭐⭐⭐⭐☆ — 极小极大+MAB 的框架组合新颖，理论和实践结合好
实验充分度: ⭐⭐⭐⭐☆ — 8个任务、多种消融，但缺乏真实场景验证
写作质量: ⭐⭐⭐⭐☆ — 理论推导清晰，从通用到实用的层次递进设计合理
价值: ⭐⭐⭐⭐☆ — 为离线安全 RL 提供了实用可靠的新方案，即插即用特性有实际工程价值