跳转至

Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

会议: NeurIPS 2025
arXiv: 2509.18631
代码: 项目页
领域: 机器人 / Sim-to-Real / 域自适应
关键词: sim-to-real, optimal transport, domain adaptation, behavior cloning, robot manipulation

一句话总结

提出基于不平衡最优运输(UOT)的模拟-真实策略联合训练框架,通过对观察-动作联合分布进行对齐(而非仅对齐观察边际分布),结合时间对齐采样策略处理数据不平衡,在机器人操纵任务上实现30%的OOD泛化提升。

研究背景与动机

  1. 领域现状:行为克隆(BC)需要大量真实演示数据成本高昂,而模拟器可低成本生成大量数据,但模拟-真实间存在视觉/传感器间隙
  2. 现有痛点:简单混合sim+real数据联合训练缺乏显式特征空间约束,OOD场景下性能急剧下降;MMD等边际分布对齐方法过于粗糙,会破坏任务相关结构
  3. 核心矛盾:sim数据量大但分布不匹配,real数据稀缺但分布准确,且两者的数据量严重不平衡(\(N_{sim} \gg N_{real}\)
  4. 切入角度:对观察-动作联合分布做最优运输对齐,而非仅对齐观察——这样能保留动作相关的特征结构
  5. 核心idea一句话:用不平衡OT处理sim-real联合分布的部分重叠和数据不平衡,加DTW时间对齐采样提升mini-batch质量

方法详解

整体框架

行为克隆 + UOT正则化并行训练:\(L = L_{BC}(f_\phi, \pi_\theta) + \lambda \cdot L_{UOT}(f_\phi)\)。编码器 \(f_\phi\) 共享,BC损失学习策略,UOT损失对齐sim-real特征空间。

关键设计

  1. 最优运输驱动的动作感知特征对齐
  2. 做什么:对齐 \((z, x)\) 联合分布而非仅 \(z\)\(z\)=特征,\(x\)=本征状态/动作)
  3. 地面成本:\(C_\phi = \alpha_1 \cdot d_\mathcal{Z}(z^i_{src}, z^j_{tgt}) + \alpha_2 \cdot d_\mathcal{A}(x^i_{src}, x^j_{tgt})\)
  4. 设计动机:联合分布保留了"什么特征对应什么动作"的结构,比边际对齐更精细

  5. 不平衡最优运输(UOT)

  6. 做什么:放松OT的严格边际约束,处理 \(N_{sim} \gg N_{real}\) 的数据不平衡
  7. 核心:\(L_{UOT} = \min_\Pi \langle\Pi, \hat{C}\rangle_F + \epsilon\Omega(\Pi) + \tau \text{KL}(\Pi\mathbf{1}||\mathbf{p}) + \tau \text{KL}(\Pi^\top\mathbf{1}||\mathbf{q})\)
  8. 设计动机:标准OT强制所有sim样本必须匹配到real样本,但sim中有许多real未覆盖的状态,UOT允许部分质量不运输

  9. 时间对齐采样策略

  10. 做什么:用DTW计算轨迹相似度,按相似度加权采样构造mini-batch
  11. 权重:\(w(\xi_{src}, \xi_{tgt}) = \frac{1}{1+e^{10\cdot(\bar{d}-0.01)}}\)
  12. 设计动机:随机采样的mini-batch中sim-real样本对应关系差,DTW对齐后样本对更有意义

实验关键数据

模拟→模拟域自适应

方法 分布内成功率 OOD成功率
Co-training 0.71 0.28
MMD对齐 - 0.50(但损害源域)
本方法 (UOT) 0.78 0.36
Target-only - 0.0

模拟→真实域自适应

方法 图像策略 点云策略
Co-training 0.55 0.60
本方法 0.73 0.77

关键发现

  • 联合分布对齐比边际分布对齐(MMD)更有效,t-SNE清晰显示源/目标特征混合度更好
  • 100→1000条模拟轨迹可带来25%的OOD性能提升——更多模拟数据真的有用
  • 同时支持RGB图像和点云两种模态

亮点与洞察

  • 联合分布对齐的理论优势:保留动作-特征结构,比边际对齐信息更丰富
  • UOT处理数据不平衡优雅:不强制所有sim样本找到real对应,允许部分质量不运输
  • 跨模态验证:同一框架在RGB和点云上都有效,说明方法的通用性

局限性 / 可改进方向

  • 仅处理视觉间隙,不处理动力学差异(准静态假设)
  • 需少量结构化的真实演示(非无标签数据)
  • 任务限于准静态抓取操纵,动态接触丰富任务未测

相关工作与启发

  • vs DeepJDOT:DeepJDOT 用伪标签做联合分布对齐,本文用真实动作/状态 + UOT 处理不平衡
  • vs Co-training:Co-training 无显式约束,OOD 崩溃严重;本方法通过 OT 显式对齐解决
  • vs MMD:MMD 仅对齐边际分布,过于粗糙,联合分布对齐精度更高

评分

  • 新颖性: ⭐⭐⭐⭐ UOT+DTW采样组合新颖,联合分布对齐视角有理论支撑
  • 实验充分度: ⭐⭐⭐⭐ sim-sim + sim-real,图像+点云,消融和可视化充分
  • 写作质量: ⭐⭐⭐⭐ 方法动机清晰,模块化设计容易理解
  • 价值: ⭐⭐⭐⭐ 对sim-to-real机器人学习有重要实践价值