跳转至

Boundary-to-Region Supervision for Offline Safe Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2509.25727
代码: https://github.com/HuikangSu/B2R
领域: AI安全
关键词: 离线安全强化学习, Decision Transformer, 代价约束, 非对称条件化, 安全区域监督

一句话总结

提出 B2R(Boundary-to-Region)框架,通过代价信号重对齐(CTG Realignment)解决序列模型在离线安全RL中对回报和代价的对称条件化谬误,将稀疏的边界监督转化为密集的安全区域监督,在38个安全关键任务中35个满足安全约束。

研究背景与动机

领域现状:离线安全强化学习旨在从静态数据集学习满足安全约束的策略。Decision Transformer (DT) 类方法通过将 RL 重构为条件序列建模取得了不错效果。

现有痛点:现有DT方法(如CDT)将 return-to-go (RTG) 和 cost-to-go (CTG) 作为对称的输入token处理,忽略了二者的本质差异:RTG 是灵活的性能目标,而 CTG 应是刚性的安全边界。

核心矛盾:这种对称处理导致两个问题:(1) 部署时难以选择合适的CTG初始值;(2) 数据集中代价恰好接近安全阈值的轨迹很稀疏,导致监督信号不足。

本文目标:设计非对称的条件化机制,使 CTG 作为边界约束而非变量目标,解耦安全保证与奖励优化。

切入角度:将所有安全轨迹的代价统一重对齐到安全阈值,使模型在固定的边界token条件下学习整个安全区域的多样行为。

核心 idea:用 CTG 重对齐将稀疏的"边界监督"转化为密集的"区域监督",让模型从安全区域内的所有行为中学习,而非仅从代价恰好等于阈值的少量轨迹中学习。

方法详解

整体框架

B2R包含三个环环相扣的组件:(1) 轨迹过滤去除不安全样本;(2) CTG重对齐将所有安全轨迹统一到部署时代价阈值;(3) RoPE位置编码增强对重对齐后时间动态的建模。

关键设计

  1. 轨迹过滤 (Trajectory Filtering):

    • 功能:定义安全区域,去除违规轨迹
    • 核心思路:保留累积代价 \(C(\tau) \leq \kappa\) 的安全轨迹组成 \(\mathcal{D}_{\text{safe}}\),确保所有训练数据符合部署约束
    • 设计动机:防止不安全轨迹对策略产生负面影响
  2. CTG 重对齐 (CTG Realignment):

    • 功能:创建密集且统一的监督信号
    • 核心思路:对每条安全轨迹的 CTG 序列加上常数偏移 \(\hat{C}_t' = \hat{C}_t + (\kappa - C(\tau))\),使初始 CTG 统一为 \(\kappa\),同时保留原始 CTG 的时间变化模式
    • 设计动机:传统方法仅从代价恰好等于 \(\kappa\) 的边界轨迹学习(稀疏),重对齐后模型用统一的边界token学习来自整个安全区域的多样行为(密集)
  3. RoPE 位置编码:

    • 功能:改善时序建模,适配CTG重对齐
    • 核心思路:用旋转位置编码替代DT原始的绝对/可学习位置编码,其相对位置编码特性更适合捕捉重对齐后代价序列的逐步变化动态
    • 设计动机:重对齐改变了CTG序列的绝对值但保留了相对变化,RoPE的相对编码与这一特性天然匹配

损失函数 / 训练策略

使用标准的行为克隆损失:\(\mathcal{L}_{BC}(\theta) = \mathbb{E}_{\tau \sim \mathcal{D}_{\text{safe}}}[-\log \pi_\theta(a_t | \hat{R}_{t-K:t}, \hat{C}'_{t-K:t}, s_{t-K:t}, a_{t-K:t-1})]\),在CTG重对齐后的安全数据集上训练,部署时使用固定的 \(\hat{C}_0' = \kappa\)

实验关键数据

主实验

任务类别 安全约束满足数 总任务数 B2R CDT基线
安全关键任务 35 38 最优奖励 约20个满足

消融实验

CTG重对齐策略 效果 说明
Shift(均匀偏移) 最佳 保留时间剖面,简单有效
Avg(均分) 次优 均匀再分配多余代价预算
Scale(缩放) 中等 乘性归一化
Rand(随机) 较差 随机再分配引入噪声

关键发现

  • B2R在38个任务中35个满足安全约束,远超CDT等基线
  • Shift策略最简单也最有效,因为它保留了原始CTG的时间变化模式
  • MetaDrive实验直观展示了边界监督的脆弱性:仅在v=10处训练的策略频繁超速,而B2R从多样速度行为中学习,实现了平滑的安全裕度控制

亮点与洞察

  • "对称性谬误"的识别非常深刻:RTG和CTG虽然形式相似,但语义完全不同——一个是"追求的目标",一个是"不可逾越的边界"。这一洞察可推广到所有目标-约束优化问题中
  • CTG重对齐的巧妙之处在于:不修改模型架构,仅修改数据处理方式,就将稀疏监督转化为密集监督

局限与展望

  • 理论分析基于简化假设,实际环境中的安全保证可能受限
  • 轨迹过滤可能丢弃大量数据,在数据稀缺场景下不利
  • 未来可考虑自适应的代价阈值和在线调整策略

相关工作与启发

  • vs CDT: CDT对称处理RTG和CTG,B2R通过非对称设计解耦安全与性能
  • vs TraC: TraC仅分类丢弃不安全轨迹,B2R进一步对安全轨迹进行变换,保留行为多样性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 对称性谬误的发现和区域监督范式非常原创
  • 实验充分度: ⭐⭐⭐⭐⭐ 38个任务全面验证
  • 写作质量: ⭐⭐⭐⭐ 理论分析清晰,直觉图示有效
  • 价值: ⭐⭐⭐⭐⭐ 为序列模型应用于安全RL提供了新的理论和实践基础

相关论文