GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer¶
会议: CVPR 2026
arXiv: 2602.20871
代码: 无
领域: 机器人/具身智能
关键词: Sim-to-Real迁移, 持续学习, 几何感知MoE, 点云表征, 经验回放
一句话总结¶
GeCo-SRT提出持续跨任务Sim-to-Real迁移范式,利用局部几何特征的域不变性和任务不变性,通过几何感知MoE模块提取可复用的几何知识并用专家引导的优先经验回放防遗忘,在4个操作任务上比基线平均提升52%成功率且仅需1/6数据。
背景与动机¶
传统Sim-to-Real方法(系统辨识、域随机化、数据驱动迁移)将每次迁移视为独立过程——每个新任务都需从头调参、重新收集数据,成本高且浪费先前经验。核心问题在于:不同任务之间的Sim-to-Real gap实际上共享大量结构化的跨域知识(如几何形状在仿真和现实中一致),但现有方法无法在任务间积累复用这些知识。
核心问题¶
如何在多个Sim-to-Real任务之间持续积累可迁移知识,使得每个新任务的迁移更快更好,而非每次从零开始?什么样的知识载体既跨域又跨任务?
方法详解¶
整体框架¶
采用Human-in-the-Loop的Sim-to-Real管线:先在仿真中用2000条专家轨迹训练基础扩散策略,部署到真实环境时人类操作员通过SpaceMouse实时纠正(60条纠正轨迹),将纠正数据与仿真数据混合训练一个共享的感知残差模块。该残差模块跨任务共享并持续更新,实现知识积累。
关键设计¶
-
几何感知混合专家(Geo-MoE): 作为感知残差模块。从输入点云中用kNN采样局部点组,通过PCA提取局部几何特征(平面度、线性度、显著性),用这些几何特征驱动门控网络将点组路由到不同专家。每个专家专精于特定的几何知识(如边缘、角落、平面)。输出残差向量与冻结的基础编码器特征拼接后送入扩散策略头。核心洞察:局部几何特征具有双重不变性——域不变(仿真和现实中几何结构一致)且任务不变(不同操作任务共享平面/边缘等基本几何元素)。
-
几何专家引导的优先经验回放(Geo-PER): 标准PER按任务损失采样,忽视闲置专家导致其遗忘。Geo-PER将优先级从任务损失转移到专家利用率:如果某专家在当前任务被低利用(\(u_j^{\text{new}}\)低),则优先从历史buffer中采样那些强激活该专家的样本(\(w_{i,j}\)高),公式:\(P_i \propto \sum_{j=1}^{M} w_{i,j} \cdot \frac{1}{u_j^{\text{new}} + \epsilon}\)。这种反向对冲策略确保所有专家都被周期性刷新。
-
Human-in-the-Loop纠正管线: 将Sim-to-Real gap量化为人类纠正轨迹——当操作员预见失败时接管控制。纠正数据与仿真数据混合,只更新共享的Geo-MoE模块(基础策略冻结),使知识积累路径清晰。
损失函数 / 训练策略¶
\(\mathcal{L}_{\text{total}} = \text{MSE}(\hat{a}, a) + \alpha \mathcal{L}_{\text{balance}}\)。Balance loss防止门控坍塌。基础策略训练lr=\(3 \times 10^{-4}\),残差学习lr=\(1 \times 10^{-3}\)。Geo-PER采样优先度参数0.6,EMA更新系数0.4。每任务60条纠正轨迹。
实验关键数据¶
| 设定 | 指标 | GeCo-SRT | Transic+PER | Geo-MoE+PER | Direct Deploy |
|---|---|---|---|---|---|
| 单任务迁移 | Avg SR(%) | 50.0 | 38.3 | - | 3.1 |
| 持续4任务迁移 | Avg SR(%) | 63.3 | 40.0 | 55.7 | 3.1 |
| 持续4任务迁移 | Avg N-NBT(%) | 26.5 | 48.2 | 36.3 | - |
| 数据效率 | 匹配基线所需数据 | 1/6 | - | - | - |
消融实验要点¶
- 观测残差(点云编码器)是最关键组件:加入后SR从3.1%跃升到45.8%
- 仅加MoE不加观测残差无效(几何路由需要有意义的特征做基础)
- 观测残差+MoE组合最优(55.8% SR)
- Geo-PER vs 标准PER:63.3% vs 55.7%,证明专家级优先级优于任务级损失优先级
- 任务相似性影响迁移效果:PickCube→StackCube正迁移(40%),PlugInsert→StackCube负迁移(16.7%)
- 专家数N=3最优,N=2和N=8也稳健(60-65%)
- 新增Faucet/Tidying任务:持续学习(83.3/56.7%)远优于零样本(53.3/30%)和从头训练(76.6/43.3%)
亮点¶
- 首次将Sim-to-Real迁移从孤立任务扩展为持续跨任务知识积累范式
- 局部几何特征的"双重不变性"洞察新颖且经过实验验证——确实是理想的跨域跨任务知识载体
- Geo-PER将经验回放优先级从任务级转移到专家级的设计独特,针对MoE结构定制
- 数据效率突出:20条轨迹就能接近从头60条轨迹的性能
- MoE可解释:可视化显示专家确实自发专精于边缘/角落/平面
局限性 / 可改进方向¶
- 主要解决观测gap(视觉层面),对复杂动力学gap(物理层面)效果有限
- 依赖Human-in-the-Loop纠正数据收集,虽然只需60条轨迹但仍需人工参与
- 4个任务的规模较小,更大规模的任务序列是否仍然有效待验证
- 仅使用点云输入,RGB性能明显较差(40% vs 80%)
与相关工作的对比¶
- Transic: 同样用人工纠正轨迹做Sim-to-Real迁移,但是行为克隆残差网络,无MoE无持续学习,单任务38.3% vs GeCo-SRT单任务50%
- Domain Randomization: 需要手工设置随机化范围,且每任务独立;GeCo-SRT自动累积跨任务知识
- LIBERO/LOTUS等持续学习: 针对纯模仿学习的持续学习,未涉及Sim-to-Real gap;GeCo-SRT首次将持续学习引入Sim-to-Real迁移
启发与关联¶
- 几何特征作为跨域不变量的思路可以和之前读的AFRO(3D动态预训练)互补——AFRO学动态,GeCo-SRT用几何做迁移
- 专家级优先经验回放的设计可以推广到其他MoE-based持续学习系统
评分¶
- 新颖性: ⭐⭐⭐⭐ 持续跨任务Sim-to-Real是全新设定,Geo-MoE+Geo-PER组合有原创性
- 实验充分度: ⭐⭐⭐⭐ 4+3个真实机器人任务,详尽消融+迁移分析+数据效率+可解释性
- 写作质量: ⭐⭐⭐⭐ 问题驱动清晰,方法叙述有层次
- 价值: ⭐⭐⭐⭐ 为Sim-to-Real迁移提供了新的持续学习视角,数据效率高