跳转至

Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

会议: ICLR 2026
arXiv: 2512.02486
代码: 无
领域: AI安全 / RL鲁棒性
关键词: offline RL, cross-domain, dynamics shift, robustness, Bellman operator

一句话总结

首次同时解决跨域离线 RL 的"训练时鲁棒性"(源域-目标域不匹配)和"测试时鲁棒性"(部署环境动态偏移):提出 DROCO,通过 Robust Cross-Domain Bellman (RCB) 算子对源域数据施加鲁棒 Bellman 更新、对目标域数据施加标准更新,将动态不确定性映射为可处理的状态扰动。

研究背景与动机

  1. 领域现状:跨域离线 RL 用源域丰富数据弥补目标域数据不足,但源域和目标域的动力学可能不同。现有方法(如 H2O、DARA)关注训练时鲁棒性——如何在源-目标 mismatch 下学习好策略。
  2. 现有痛点:即使训练时处理了域间差异,部署时真实环境的动力学可能进一步偏移(如机器人实际硬件 vs 仿真),现有方法未考虑这一层。
  3. 核心矛盾:训练时和测试时是两种不同的鲁棒性需求,需要统一框架同时处理。
  4. 本文要解决什么? 同时保证 train-time(源域使用安全)和 test-time(部署鲁棒)的双重鲁棒性。
  5. 切入角度:对源域数据使用鲁棒 Bellman 算子(应对部署偏移),对目标域数据使用标准 in-sample 算子(保守估计),统一为 RCB 算子。
  6. 核心idea一句话:RCB = 源域用鲁棒 Bellman + 目标域用标准 Bellman,将动态不确定性转化为状态扰动实现实用化。

方法详解

整体框架

(1) 建立 RCB 算子理论 → (2) 将不可处理的动态不确定性通过集成动态模型映射为状态扰动 → (3) 用动态值惩罚和 Huber loss 稳定训练。

关键设计

  1. RCB 算子
  2. 目标域数据:标准 in-sample Bellman backup(保守 OOD 处理)
  3. 源域数据:鲁棒 Bellman 算子(考虑动态不确定集 \(\mathcal{P}\) 内的最差情况)
  4. 理论保证:RCB 不动点策略在部署环境动态偏移时性能有界。

  5. 动态→状态扰动映射

  6. 不可直接优化动态转移不确定性,但通过集成动态模型估计下一状态分布,将动态扰动等效为状态空间扰动。
  7. 实践上用集成模型预测的方差来构造扰动。

  8. 稳定训练技巧

  9. Dynamic value penalty 防止过/低估值
  10. Huber loss 替代 L² loss 提升稳定性

实验关键数据

D4RL 基准(归一化分数)

环境 DROCO 最佳基线
HalfCheetah-medium 45.3 ~42
Hopper-medium 55.4 ~50
Walker2d-medium 70.8 ~65
Ant-medium-expert 119.0 ~105
总分 1105.2 ~970

动态偏移下的鲁棒性

  • 基线在 medium/hard 偏移下性能退化 40.9%/72.4%
  • DROCO 展现显著增强的部署鲁棒性

关键发现

  • 仅有 train-time 鲁棒性不够——基线在部署偏移下大幅退化。
  • DROCO 在正常和偏移环境下都优于或持平基线。
  • 鲁棒性参数 ε 控制 train/test-time 鲁棒性的权衡。

亮点与洞察

  • 双重鲁棒性的形式化:首次将跨域离线 RL 的两种鲁棒性需求统一到一个算子中。
  • 动态→状态映射的实用性:将理论上不可处理的动态不确定性转化为实际可操作的状态扰动。

局限性 / 可改进方向

  • Q 函数的 Lipschitz 连续性假设可能在复杂环境中不成立。
  • 依赖集成动态模型质量——目标域数据少时模型不可靠。
  • ε 需要调优。

相关工作与启发

  • vs H2O/DARA:仅处理 train-time 鲁棒性。DROCO 增加了 test-time 鲁棒性。
  • vs Daze (RL 后门):Daze 揭示 RL 供应链中模拟器可被恶意操控,DROCO 从防御角度提供动态偏移的鲁棒性。

评分

  • 新颖性: ⭐⭐⭐⭐ 双重鲁棒性概念新颖,RCB 算子设计合理
  • 实验充分度: ⭐⭐⭐⭐ D4RL 标准基准 + 多种偏移场景
  • 写作质量: ⭐⭐⭐⭐ 理论清晰
  • 价值: ⭐⭐⭐⭐ 对 sim-to-real 迁移的 RL 部署有实际指导