Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts¶
会议: ICLR 2026
arXiv: 2512.02486
代码: 无
领域: AI安全 / RL鲁棒性
关键词: offline RL, cross-domain, dynamics shift, robustness, Bellman operator
一句话总结¶
首次同时解决跨域离线 RL 的"训练时鲁棒性"(源域-目标域不匹配)和"测试时鲁棒性"(部署环境动态偏移):提出 DROCO,通过 Robust Cross-Domain Bellman (RCB) 算子对源域数据施加鲁棒 Bellman 更新、对目标域数据施加标准更新,将动态不确定性映射为可处理的状态扰动。
研究背景与动机¶
- 领域现状:跨域离线 RL 用源域丰富数据弥补目标域数据不足,但源域和目标域的动力学可能不同。现有方法(如 H2O、DARA)关注训练时鲁棒性——如何在源-目标 mismatch 下学习好策略。
- 现有痛点:即使训练时处理了域间差异,部署时真实环境的动力学可能进一步偏移(如机器人实际硬件 vs 仿真),现有方法未考虑这一层。
- 核心矛盾:训练时和测试时是两种不同的鲁棒性需求,需要统一框架同时处理。
- 本文要解决什么? 同时保证 train-time(源域使用安全)和 test-time(部署鲁棒)的双重鲁棒性。
- 切入角度:对源域数据使用鲁棒 Bellman 算子(应对部署偏移),对目标域数据使用标准 in-sample 算子(保守估计),统一为 RCB 算子。
- 核心idea一句话:RCB = 源域用鲁棒 Bellman + 目标域用标准 Bellman,将动态不确定性转化为状态扰动实现实用化。
方法详解¶
整体框架¶
(1) 建立 RCB 算子理论 → (2) 将不可处理的动态不确定性通过集成动态模型映射为状态扰动 → (3) 用动态值惩罚和 Huber loss 稳定训练。
关键设计¶
- RCB 算子:
- 目标域数据:标准 in-sample Bellman backup(保守 OOD 处理)
- 源域数据:鲁棒 Bellman 算子(考虑动态不确定集 \(\mathcal{P}\) 内的最差情况)
-
理论保证:RCB 不动点策略在部署环境动态偏移时性能有界。
-
动态→状态扰动映射:
- 不可直接优化动态转移不确定性,但通过集成动态模型估计下一状态分布,将动态扰动等效为状态空间扰动。
-
实践上用集成模型预测的方差来构造扰动。
-
稳定训练技巧:
- Dynamic value penalty 防止过/低估值
- Huber loss 替代 L² loss 提升稳定性
实验关键数据¶
D4RL 基准(归一化分数)¶
| 环境 | DROCO | 最佳基线 |
|---|---|---|
| HalfCheetah-medium | 45.3 | ~42 |
| Hopper-medium | 55.4 | ~50 |
| Walker2d-medium | 70.8 | ~65 |
| Ant-medium-expert | 119.0 | ~105 |
| 总分 | 1105.2 | ~970 |
动态偏移下的鲁棒性¶
- 基线在 medium/hard 偏移下性能退化 40.9%/72.4%
- DROCO 展现显著增强的部署鲁棒性
关键发现¶
- 仅有 train-time 鲁棒性不够——基线在部署偏移下大幅退化。
- DROCO 在正常和偏移环境下都优于或持平基线。
- 鲁棒性参数 ε 控制 train/test-time 鲁棒性的权衡。
亮点与洞察¶
- 双重鲁棒性的形式化:首次将跨域离线 RL 的两种鲁棒性需求统一到一个算子中。
- 动态→状态映射的实用性:将理论上不可处理的动态不确定性转化为实际可操作的状态扰动。
局限性 / 可改进方向¶
- Q 函数的 Lipschitz 连续性假设可能在复杂环境中不成立。
- 依赖集成动态模型质量——目标域数据少时模型不可靠。
- ε 需要调优。
相关工作与启发¶
- vs H2O/DARA:仅处理 train-time 鲁棒性。DROCO 增加了 test-time 鲁棒性。
- vs Daze (RL 后门):Daze 揭示 RL 供应链中模拟器可被恶意操控,DROCO 从防御角度提供动态偏移的鲁棒性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 双重鲁棒性概念新颖,RCB 算子设计合理
- 实验充分度: ⭐⭐⭐⭐ D4RL 标准基准 + 多种偏移场景
- 写作质量: ⭐⭐⭐⭐ 理论清晰
- 价值: ⭐⭐⭐⭐ 对 sim-to-real 迁移的 RL 部署有实际指导