Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts¶

会议: ICLR 2026
arXiv: 2512.02486
代码: 无
领域: AI安全 / RL鲁棒性
关键词: offline RL, cross-domain, dynamics shift, robustness, Bellman operator

一句话总结¶

首次同时解决跨域离线 RL 的"训练时鲁棒性"（源域-目标域不匹配）和"测试时鲁棒性"（部署环境动态偏移）：提出 DROCO，通过 Robust Cross-Domain Bellman (RCB) 算子对源域数据施加鲁棒 Bellman 更新、对目标域数据施加标准更新，将动态不确定性映射为可处理的状态扰动。

研究背景与动机¶

领域现状：跨域离线 RL 用源域丰富数据弥补目标域数据不足，但源域和目标域的动力学可能不同。现有方法（如 H2O、DARA）关注训练时鲁棒性——如何在源-目标 mismatch 下学习好策略。
现有痛点：即使训练时处理了域间差异，部署时真实环境的动力学可能进一步偏移（如机器人实际硬件 vs 仿真），现有方法未考虑这一层。
核心矛盾：训练时和测试时是两种不同的鲁棒性需求，需要统一框架同时处理。
本文要解决什么？ 同时保证 train-time（源域使用安全）和 test-time（部署鲁棒）的双重鲁棒性。
切入角度：对源域数据使用鲁棒 Bellman 算子（应对部署偏移），对目标域数据使用标准 in-sample 算子（保守估计），统一为 RCB 算子。
核心idea一句话：RCB = 源域用鲁棒 Bellman + 目标域用标准 Bellman，将动态不确定性转化为状态扰动实现实用化。

方法详解¶

整体框架¶

(1) 建立 RCB 算子理论 → (2) 将不可处理的动态不确定性通过集成动态模型映射为状态扰动 → (3) 用动态值惩罚和 Huber loss 稳定训练。

关键设计¶

RCB 算子：
目标域数据：标准 in-sample Bellman backup（保守 OOD 处理）
源域数据：鲁棒 Bellman 算子（考虑动态不确定集 \(\mathcal{P}\) 内的最差情况）
理论保证：RCB 不动点策略在部署环境动态偏移时性能有界。
动态→状态扰动映射：
不可直接优化动态转移不确定性，但通过集成动态模型估计下一状态分布，将动态扰动等效为状态空间扰动。
实践上用集成模型预测的方差来构造扰动。
稳定训练技巧：
Dynamic value penalty 防止过/低估值
Huber loss 替代 L² loss 提升稳定性

实验关键数据¶

D4RL 基准（归一化分数）¶

环境	DROCO	最佳基线
HalfCheetah-medium	45.3	~42
Hopper-medium	55.4	~50
Walker2d-medium	70.8	~65
Ant-medium-expert	119.0	~105
总分	1105.2	~970

动态偏移下的鲁棒性¶

基线在 medium/hard 偏移下性能退化 40.9%/72.4%
DROCO 展现显著增强的部署鲁棒性

关键发现¶

仅有 train-time 鲁棒性不够——基线在部署偏移下大幅退化。
DROCO 在正常和偏移环境下都优于或持平基线。
鲁棒性参数 ε 控制 train/test-time 鲁棒性的权衡。

亮点与洞察¶

双重鲁棒性的形式化：首次将跨域离线 RL 的两种鲁棒性需求统一到一个算子中。
动态→状态映射的实用性：将理论上不可处理的动态不确定性转化为实际可操作的状态扰动。

局限性 / 可改进方向¶

Q 函数的 Lipschitz 连续性假设可能在复杂环境中不成立。
依赖集成动态模型质量——目标域数据少时模型不可靠。
ε 需要调优。

评分¶

新颖性: ⭐⭐⭐⭐ 双重鲁棒性概念新颖，RCB 算子设计合理
实验充分度: ⭐⭐⭐⭐ D4RL 标准基准 + 多种偏移场景
写作质量: ⭐⭐⭐⭐ 理论清晰
价值: ⭐⭐⭐⭐ 对 sim-to-real 迁移的 RL 部署有实际指导