Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training¶
会议: NeurIPS 2025
arXiv: 2509.18631
代码: 项目页
领域: 机器人 / Sim-to-Real / 域自适应
关键词: sim-to-real, optimal transport, domain adaptation, behavior cloning, robot manipulation
一句话总结¶
提出基于不平衡最优运输(UOT)的模拟-真实策略联合训练框架,通过对观察-动作联合分布进行对齐(而非仅对齐观察边际分布),结合时间对齐采样策略处理数据不平衡,在机器人操纵任务上实现30%的OOD泛化提升。
研究背景与动机¶
- 领域现状:行为克隆(BC)需要大量真实演示数据成本高昂,而模拟器可低成本生成大量数据,但模拟-真实间存在视觉/传感器间隙
- 现有痛点:简单混合sim+real数据联合训练缺乏显式特征空间约束,OOD场景下性能急剧下降;MMD等边际分布对齐方法过于粗糙,会破坏任务相关结构
- 核心矛盾:sim数据量大但分布不匹配,real数据稀缺但分布准确,且两者的数据量严重不平衡(\(N_{sim} \gg N_{real}\))
- 切入角度:对观察-动作联合分布做最优运输对齐,而非仅对齐观察——这样能保留动作相关的特征结构
- 核心idea一句话:用不平衡OT处理sim-real联合分布的部分重叠和数据不平衡,加DTW时间对齐采样提升mini-batch质量
方法详解¶
整体框架¶
行为克隆 + UOT正则化并行训练:\(L = L_{BC}(f_\phi, \pi_\theta) + \lambda \cdot L_{UOT}(f_\phi)\)。编码器 \(f_\phi\) 共享,BC损失学习策略,UOT损失对齐sim-real特征空间。
关键设计¶
- 最优运输驱动的动作感知特征对齐:
- 做什么:对齐 \((z, x)\) 联合分布而非仅 \(z\)(\(z\)=特征,\(x\)=本征状态/动作)
- 地面成本:\(C_\phi = \alpha_1 \cdot d_\mathcal{Z}(z^i_{src}, z^j_{tgt}) + \alpha_2 \cdot d_\mathcal{A}(x^i_{src}, x^j_{tgt})\)
-
设计动机:联合分布保留了"什么特征对应什么动作"的结构,比边际对齐更精细
-
不平衡最优运输(UOT):
- 做什么:放松OT的严格边际约束,处理 \(N_{sim} \gg N_{real}\) 的数据不平衡
- 核心:\(L_{UOT} = \min_\Pi \langle\Pi, \hat{C}\rangle_F + \epsilon\Omega(\Pi) + \tau \text{KL}(\Pi\mathbf{1}||\mathbf{p}) + \tau \text{KL}(\Pi^\top\mathbf{1}||\mathbf{q})\)
-
设计动机:标准OT强制所有sim样本必须匹配到real样本,但sim中有许多real未覆盖的状态,UOT允许部分质量不运输
-
时间对齐采样策略:
- 做什么:用DTW计算轨迹相似度,按相似度加权采样构造mini-batch
- 权重:\(w(\xi_{src}, \xi_{tgt}) = \frac{1}{1+e^{10\cdot(\bar{d}-0.01)}}\)
- 设计动机:随机采样的mini-batch中sim-real样本对应关系差,DTW对齐后样本对更有意义
实验关键数据¶
模拟→模拟域自适应¶
| 方法 | 分布内成功率 | OOD成功率 |
|---|---|---|
| Co-training | 0.71 | 0.28 |
| MMD对齐 | - | 0.50(但损害源域) |
| 本方法 (UOT) | 0.78 | 0.36 |
| Target-only | - | 0.0 |
模拟→真实域自适应¶
| 方法 | 图像策略 | 点云策略 |
|---|---|---|
| Co-training | 0.55 | 0.60 |
| 本方法 | 0.73 | 0.77 |
关键发现¶
- 联合分布对齐比边际分布对齐(MMD)更有效,t-SNE清晰显示源/目标特征混合度更好
- 100→1000条模拟轨迹可带来25%的OOD性能提升——更多模拟数据真的有用
- 同时支持RGB图像和点云两种模态
亮点与洞察¶
- 联合分布对齐的理论优势:保留动作-特征结构,比边际对齐信息更丰富
- UOT处理数据不平衡优雅:不强制所有sim样本找到real对应,允许部分质量不运输
- 跨模态验证:同一框架在RGB和点云上都有效,说明方法的通用性
局限性 / 可改进方向¶
- 仅处理视觉间隙,不处理动力学差异(准静态假设)
- 需少量结构化的真实演示(非无标签数据)
- 任务限于准静态抓取操纵,动态接触丰富任务未测
相关工作与启发¶
- vs DeepJDOT:DeepJDOT 用伪标签做联合分布对齐,本文用真实动作/状态 + UOT 处理不平衡
- vs Co-training:Co-training 无显式约束,OOD 崩溃严重;本方法通过 OT 显式对齐解决
- vs MMD:MMD 仅对齐边际分布,过于粗糙,联合分布对齐精度更高
评分¶
- 新颖性: ⭐⭐⭐⭐ UOT+DTW采样组合新颖,联合分布对齐视角有理论支撑
- 实验充分度: ⭐⭐⭐⭐ sim-sim + sim-real,图像+点云,消融和可视化充分
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰,模块化设计容易理解
- 价值: ⭐⭐⭐⭐ 对sim-to-real机器人学习有重要实践价值