Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training¶

会议: NeurIPS 2025
arXiv: 2509.18631
代码: 项目页
领域: 机器人 / Sim-to-Real / 域自适应
关键词: sim-to-real, optimal transport, domain adaptation, behavior cloning, robot manipulation

一句话总结¶

提出基于不平衡最优运输（UOT）的模拟-真实策略联合训练框架，通过对观察-动作联合分布进行对齐（而非仅对齐观察边际分布），结合时间对齐采样策略处理数据不平衡，在机器人操纵任务上实现30%的OOD泛化提升。

研究背景与动机¶

领域现状：行为克隆（BC）需要大量真实演示数据成本高昂，而模拟器可低成本生成大量数据，但模拟-真实间存在视觉/传感器间隙
现有痛点：简单混合sim+real数据联合训练缺乏显式特征空间约束，OOD场景下性能急剧下降；MMD等边际分布对齐方法过于粗糙，会破坏任务相关结构
核心矛盾：sim数据量大但分布不匹配，real数据稀缺但分布准确，且两者的数据量严重不平衡（\(N_{sim} \gg N_{real}\)）
切入角度：对观察-动作联合分布做最优运输对齐，而非仅对齐观察——这样能保留动作相关的特征结构
核心idea一句话：用不平衡OT处理sim-real联合分布的部分重叠和数据不平衡，加DTW时间对齐采样提升mini-batch质量

方法详解¶

整体框架¶

行为克隆 + UOT正则化并行训练：\(L = L_{BC}(f_\phi, \pi_\theta) + \lambda \cdot L_{UOT}(f_\phi)\)。编码器 \(f_\phi\) 共享，BC损失学习策略，UOT损失对齐sim-real特征空间。

关键设计¶

最优运输驱动的动作感知特征对齐：
做什么：对齐 \((z, x)\) 联合分布而非仅 \(z\)（\(z\)=特征，\(x\)=本征状态/动作）
地面成本：\(C_\phi = \alpha_1 \cdot d_\mathcal{Z}(z^i_{src}, z^j_{tgt}) + \alpha_2 \cdot d_\mathcal{A}(x^i_{src}, x^j_{tgt})\)
设计动机：联合分布保留了"什么特征对应什么动作"的结构，比边际对齐更精细
不平衡最优运输（UOT）：
做什么：放松OT的严格边际约束，处理 \(N_{sim} \gg N_{real}\) 的数据不平衡
核心：\(L_{UOT} = \min_\Pi \langle\Pi, \hat{C}\rangle_F + \epsilon\Omega(\Pi) + \tau \text{KL}(\Pi\mathbf{1}||\mathbf{p}) + \tau \text{KL}(\Pi^\top\mathbf{1}||\mathbf{q})\)
设计动机：标准OT强制所有sim样本必须匹配到real样本，但sim中有许多real未覆盖的状态，UOT允许部分质量不运输
时间对齐采样策略：
做什么：用DTW计算轨迹相似度，按相似度加权采样构造mini-batch
权重：\(w(\xi_{src}, \xi_{tgt}) = \frac{1}{1+e^{10\cdot(\bar{d}-0.01)}}\)
设计动机：随机采样的mini-batch中sim-real样本对应关系差，DTW对齐后样本对更有意义

实验关键数据¶

模拟→模拟域自适应¶

方法	分布内成功率	OOD成功率
Co-training	0.71	0.28
MMD对齐	-	0.50（但损害源域）
本方法 (UOT)	0.78	0.36
Target-only	-	0.0

模拟→真实域自适应¶

方法	图像策略	点云策略
Co-training	0.55	0.60
本方法	0.73	0.77

关键发现¶

联合分布对齐比边际分布对齐（MMD）更有效，t-SNE清晰显示源/目标特征混合度更好
100→1000条模拟轨迹可带来25%的OOD性能提升——更多模拟数据真的有用
同时支持RGB图像和点云两种模态

亮点与洞察¶

联合分布对齐的理论优势：保留动作-特征结构，比边际对齐信息更丰富
UOT处理数据不平衡优雅：不强制所有sim样本找到real对应，允许部分质量不运输
跨模态验证：同一框架在RGB和点云上都有效，说明方法的通用性

局限性 / 可改进方向¶

仅处理视觉间隙，不处理动力学差异（准静态假设）
需少量结构化的真实演示（非无标签数据）
任务限于准静态抓取操纵，动态接触丰富任务未测

评分¶

新颖性: ⭐⭐⭐⭐ UOT+DTW采样组合新颖，联合分布对齐视角有理论支撑
实验充分度: ⭐⭐⭐⭐ sim-sim + sim-real，图像+点云，消融和可视化充分
写作质量: ⭐⭐⭐⭐ 方法动机清晰，模块化设计容易理解
价值: ⭐⭐⭐⭐ 对sim-to-real机器人学习有重要实践价值