Boundary-to-Region Supervision for Offline Safe Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2509.25727
代码: https://github.com/HuikangSu/B2R
领域: AI安全
关键词: 离线安全强化学习, Decision Transformer, 代价约束, 非对称条件化, 安全区域监督

一句话总结¶

提出 B2R（Boundary-to-Region）框架，通过代价信号重对齐(CTG Realignment)解决序列模型在离线安全RL中对回报和代价的对称条件化谬误，将稀疏的边界监督转化为密集的安全区域监督，在38个安全关键任务中35个满足安全约束。

研究背景与动机¶

领域现状：离线安全强化学习旨在从静态数据集学习满足安全约束的策略。Decision Transformer (DT) 类方法通过将 RL 重构为条件序列建模取得了不错效果。

现有痛点：现有DT方法（如CDT）将 return-to-go (RTG) 和 cost-to-go (CTG) 作为对称的输入token处理，忽略了二者的本质差异：RTG 是灵活的性能目标，而 CTG 应是刚性的安全边界。

核心矛盾：这种对称处理导致两个问题：(1) 部署时难以选择合适的CTG初始值；(2) 数据集中代价恰好接近安全阈值的轨迹很稀疏，导致监督信号不足。

本文目标：设计非对称的条件化机制，使 CTG 作为边界约束而非变量目标，解耦安全保证与奖励优化。

切入角度：将所有安全轨迹的代价统一重对齐到安全阈值，使模型在固定的边界token条件下学习整个安全区域的多样行为。

核心 idea：用 CTG 重对齐将稀疏的"边界监督"转化为密集的"区域监督"，让模型从安全区域内的所有行为中学习，而非仅从代价恰好等于阈值的少量轨迹中学习。

方法详解¶

整体框架¶

B2R包含三个环环相扣的组件：(1) 轨迹过滤去除不安全样本；(2) CTG重对齐将所有安全轨迹统一到部署时代价阈值；(3) RoPE位置编码增强对重对齐后时间动态的建模。

关键设计¶

轨迹过滤 (Trajectory Filtering):
- 功能：定义安全区域，去除违规轨迹
- 核心思路：保留累积代价 \(C(\tau) \leq \kappa\) 的安全轨迹组成 \(\mathcal{D}_{\text{safe}}\)，确保所有训练数据符合部署约束
- 设计动机：防止不安全轨迹对策略产生负面影响
CTG 重对齐 (CTG Realignment):
- 功能：创建密集且统一的监督信号
- 核心思路：对每条安全轨迹的 CTG 序列加上常数偏移 \(\hat{C}_t' = \hat{C}_t + (\kappa - C(\tau))\)，使初始 CTG 统一为 \(\kappa\)，同时保留原始 CTG 的时间变化模式
- 设计动机：传统方法仅从代价恰好等于 \(\kappa\) 的边界轨迹学习（稀疏），重对齐后模型用统一的边界token学习来自整个安全区域的多样行为（密集）
RoPE 位置编码:
- 功能：改善时序建模，适配CTG重对齐
- 核心思路：用旋转位置编码替代DT原始的绝对/可学习位置编码，其相对位置编码特性更适合捕捉重对齐后代价序列的逐步变化动态
- 设计动机：重对齐改变了CTG序列的绝对值但保留了相对变化，RoPE的相对编码与这一特性天然匹配

损失函数 / 训练策略¶

使用标准的行为克隆损失：\(\mathcal{L}_{BC}(\theta) = \mathbb{E}_{\tau \sim \mathcal{D}_{\text{safe}}}[-\log \pi_\theta(a_t | \hat{R}_{t-K:t}, \hat{C}'_{t-K:t}, s_{t-K:t}, a_{t-K:t-1})]\)，在CTG重对齐后的安全数据集上训练，部署时使用固定的 \(\hat{C}_0' = \kappa\)。

实验关键数据¶

主实验¶

任务类别	安全约束满足数	总任务数	B2R	CDT基线
安全关键任务	35	38	最优奖励	约20个满足

消融实验¶

CTG重对齐策略	效果	说明
Shift（均匀偏移）	最佳	保留时间剖面，简单有效
Avg（均分）	次优	均匀再分配多余代价预算
Scale（缩放）	中等	乘性归一化
Rand（随机）	较差	随机再分配引入噪声

关键发现¶

B2R在38个任务中35个满足安全约束，远超CDT等基线
Shift策略最简单也最有效，因为它保留了原始CTG的时间变化模式
MetaDrive实验直观展示了边界监督的脆弱性：仅在v=10处训练的策略频繁超速，而B2R从多样速度行为中学习，实现了平滑的安全裕度控制

亮点与洞察¶

"对称性谬误"的识别非常深刻：RTG和CTG虽然形式相似，但语义完全不同——一个是"追求的目标"，一个是"不可逾越的边界"。这一洞察可推广到所有目标-约束优化问题中
CTG重对齐的巧妙之处在于：不修改模型架构，仅修改数据处理方式，就将稀疏监督转化为密集监督

局限与展望¶

理论分析基于简化假设，实际环境中的安全保证可能受限
轨迹过滤可能丢弃大量数据，在数据稀缺场景下不利
未来可考虑自适应的代价阈值和在线调整策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 对称性谬误的发现和区域监督范式非常原创
实验充分度: ⭐⭐⭐⭐⭐ 38个任务全面验证
写作质量: ⭐⭐⭐⭐ 理论分析清晰，直觉图示有效
价值: ⭐⭐⭐⭐⭐ 为序列模型应用于安全RL提供了新的理论和实践基础