GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer¶
会议: CVPR 2026 arXiv: 2602.20871 代码: 无 领域: 机器人
一句话总结¶
提出一种基于几何感知的持续适应方法 GeCo-SRT,通过从局部几何特征中提取跨域/跨任务不变知识,在多次 sim-to-real 迁移中实现知识积累,从而高效适应新任务。
背景与动机¶
- Sim-to-real 差距是制约机器人学习的核心瓶颈:仿真中训练的策略因视觉渲染和物理动力学差异,部署到真实世界时性能严重下降(Direct Deploy 平均成功率仅 3.1%)。
- 现有方法将每次 sim-to-real 迁移视为独立过程:System Identification 依赖手工建模、Domain Randomization 需要专家调参,且均仅支持单任务迁移,每个新任务都需从零开始,成本高昂。
- 缺乏跨任务知识积累机制:不同操作任务间共享大量几何基元(如边缘、平面),但已有方法未利用这些可迁移的几何先验来加速后续任务的适应。
- 持续学习中的灾难性遗忘:在顺序学习多个任务时,新任务训练会覆盖旧任务知识,标准 PER 方法基于任务损失优先采样,忽略了专家级别的知识保护。
方法详解¶
3.1 基于人类校正的 Sim-to-Real 迁移框架¶
对每个任务 \(i\),首先在仿真中用模仿学习训练基础扩散策略 \(\pi^{b_i}\)(含点云编码器 \(E_p^{b_i}\) 和扩散策略头 \(\pi_h^{b_i}\)),使用 L2 扩散损失:
将基础策略部署到真实世界,通过 human-in-the-loop 共享自主框架收集人类校正轨迹 \(\mathcal{D}_{real}^{h_i}\)。冻结基础策略参数,引入共享感知残差模块 \(E_p^s\)(即 Geo-MoE),用仿真与真实世界数据的混合回放缓冲区 \(D_{buf}^{m_i}\) 持续更新。
3.2 几何感知混合专家模块 (Geo-MoE)¶
核心洞察:局部几何特征具有双重不变性——
- 域不变性:局部几何(如平面度、线性度)在仿真和真实世界中结构一致,不受纹理/材质差异影响
- 任务不变性:几何基元(如边缘、角点)在不同操控任务间共享(如"抓取方块"与"堆叠方块"共享方块平面特征)
具体实现:
- 使用 k-NN 从输入点云 \(P\) 中采样局部点组 \(g_i\)
- 通过局部 PCA 估算每组的几何特征(平面度、线性度、显著性)
- 轻量门控网络 \(G\) 产生路由权重 \(w_i = \text{Softmax}(G(g_i))\)
- \(M\) 个并行专家网络加权融合:
- 聚合所有组特征得到校正残差向量 \(g_{res}'\),与冻结编码器输出拼接:\(\hat{f} = \text{Concat}(E_p^{b_i}(o), g_{res}')\)
训练损失:
其中 \(L_{balance}\) 为负载均衡损失,防止门控塌缩。
3.3 几何专家引导的优先经验回放 (Geo-PER)¶
标准 PER 基于任务损失优先采样,忽略了空闲专家的知识退化。Geo-PER 将优先级度量从任务损失转移到专家利用率:
对历史样本 \(i \in \mathcal{R}\),记录其专家激活向量 \(W_i = \{w_{i,1}, \dots, w_{i,M}\}\),计算当前新任务的平均专家利用率 \(U^{\text{new}}\),动态更新采样优先级:
直觉:如果某专家 \(j\) 在当前任务中利用率低(\(u_j^{\text{new}}\) 小),则高度激活该专家的历史样本获得更高采样概率,确保空闲专家参数持续参与梯度更新以对抗遗忘。
实验结果¶
实验设置¶
使用 4 个机器人操控任务序列验证:Pick Cube → Stack Cube → Pick Banana → Plug Insert。真实硬件为 Xarm5 机械臂 + Rotiq2F140 夹爪 + 双 RealSense 深度相机。每个任务收集 60 条人类校正轨迹。
单任务 Sim-to-Real 迁移¶
| 方法 | Pick Cube | Stack Cube | Pick Banana | Plug Insert | 平均 SR |
|---|---|---|---|---|---|
| Direct Deploy | 5.7% | 0% | 6.7% | 0% | 3.1% |
| Action Residual | 16.7% | 3.3% | 13.3% | 0.0% | 9.2% |
| Transic | 66.7% | 30.0% | 23.3% | 33.3% | 38.3% |
| Geo-MoE | 80.0% | 43.3% | 40.0% | 36.7% | 50.0% |
Geo-MoE 比最强基线 Transic 平均高出 11.7%,验证了几何感知特征在弥补观察域差距中的优势。
跨任务持续学习¶
| 方法 | Pick Cube SR↑ | N-NBT↓ | Stack Cube SR↑ | N-NBT↓ | Pick Banana SR↑ | N-NBT↓ | Plug Insert SR↑ | 平均 SR↑ | 平均 N-NBT↓ |
|---|---|---|---|---|---|---|---|---|---|
| Naive Fine-tuning | 16.7% | 100% | 3.3% | 100% | 13.3% | 100% | 3.3% | 9.2% | 75.0% |
| Transic + PER | 76.7% | 81.2% | 30.0% | 72.3% | 20.0% | 66.5% | 33.3% | 40.0% | 55.0% |
| Geo-MoE + PER | 83.3% | 34.6% | 50.0% | 76.8% | 46.7% | 7.1% | 43.3% | 55.7% | 29.6% |
| Geo-MoE + EWC | 80.0% | 70.8% | 36.7% | 77.3% | 20.0% | 50.0% | 16.7% | 38.3% | 49.5% |
| GeCo-SRT | 86.7% | 28.3% | 53.3% | 72.0% | 60.0% | 5.5% | 53.3% | 63.3% | 26.5% |
GeCo-SRT 平均成功率 63.3%,比基线高 52%;平均遗忘率 N-NBT 仅 26.5%,远优于其他方法。
数据效率¶
使用仅 20 条校正轨迹时,持续学习方法在 Pick Cube 上达到 76.6% 成功率,几乎等同于从零训练使用 60 条轨迹的效果。整体上仅需 1/6 数据量即可匹配基线的全数据性能。
亮点¶
- 范式创新:首次将 sim-to-real 迁移从"单次孤立"提升为"持续跨任务"范式,实现知识积累
- 几何双重不变性:巧妙利用局部几何特征的域不变性+任务不变性作为可迁移知识的载体
- 专家级遗忘防护:Geo-PER 从专家利用率角度重新定义优先级,精准保护空闲专家的专业知识
- 实际验证充分:在真实机器人(Xarm5)上完成 4 个任务的完整持续迁移实验,非纯仿真验证
- 显著数据效率:1/6 数据即可达到基线全数据性能,对真实世界数据稀缺场景意义重大
局限性¶
- 仅聚焦观察域差距:方法主要通过几何特征弥补视觉观察的 sim-to-real gap,对复杂动力学差异(如摩擦力、接触力)的适应能力有限
- 任务数量有限:实验仅涉及 4 个任务的顺序学习,更长任务序列下的可扩展性未验证
- 依赖人类校正:每个任务仍需人类操作员收集 60 条校正轨迹,完全自主化程度不足
- 任务相似性依赖:跨任务迁移效果高度依赖几何相似性,几何差异大的任务间可能产生负迁移
评分¶
- ⭐⭐⭐⭐ 新颖性:首次提出持续跨任务 sim-to-real 范式,几何不变性作为可迁移知识载体的洞察新颖
- ⭐⭐⭐⭐ 实用性:显著降低新任务适应的数据成本,对真实机器人部署有直接价值
- ⭐⭐⭐ 实验充分度:真机实验完整但任务规模偏小(4个任务),缺少更多样化场景
- ⭐⭐⭐ 写作质量:结构清晰、动机充分,但部分公式符号不够一致