跳转至

GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer

会议: CVPR 2026
arXiv: 2602.20871
代码: 无
领域: 机器人/具身智能
关键词: Sim-to-Real迁移, 持续学习, 几何感知MoE, 点云表征, 经验回放

一句话总结

GeCo-SRT提出持续跨任务Sim-to-Real迁移范式,利用局部几何特征的域不变性和任务不变性,通过几何感知MoE模块提取可复用的几何知识并用专家引导的优先经验回放防遗忘,在4个操作任务上比基线平均提升52%成功率且仅需1/6数据。

背景与动机

传统Sim-to-Real方法(系统辨识、域随机化、数据驱动迁移)将每次迁移视为独立过程——每个新任务都需从头调参、重新收集数据,成本高且浪费先前经验。核心问题在于:不同任务之间的Sim-to-Real gap实际上共享大量结构化的跨域知识(如几何形状在仿真和现实中一致),但现有方法无法在任务间积累复用这些知识。

核心问题

如何在多个Sim-to-Real任务之间持续积累可迁移知识,使得每个新任务的迁移更快更好,而非每次从零开始?什么样的知识载体既跨域又跨任务?

方法详解

整体框架

采用Human-in-the-Loop的Sim-to-Real管线:先在仿真中用2000条专家轨迹训练基础扩散策略,部署到真实环境时人类操作员通过SpaceMouse实时纠正(60条纠正轨迹),将纠正数据与仿真数据混合训练一个共享的感知残差模块。该残差模块跨任务共享并持续更新,实现知识积累。

关键设计

  1. 几何感知混合专家(Geo-MoE): 作为感知残差模块。从输入点云中用kNN采样局部点组,通过PCA提取局部几何特征(平面度、线性度、显著性),用这些几何特征驱动门控网络将点组路由到不同专家。每个专家专精于特定的几何知识(如边缘、角落、平面)。输出残差向量与冻结的基础编码器特征拼接后送入扩散策略头。核心洞察:局部几何特征具有双重不变性——域不变(仿真和现实中几何结构一致)且任务不变(不同操作任务共享平面/边缘等基本几何元素)。

  2. 几何专家引导的优先经验回放(Geo-PER): 标准PER按任务损失采样,忽视闲置专家导致其遗忘。Geo-PER将优先级从任务损失转移到专家利用率:如果某专家在当前任务被低利用(\(u_j^{\text{new}}\)低),则优先从历史buffer中采样那些强激活该专家的样本(\(w_{i,j}\)高),公式:\(P_i \propto \sum_{j=1}^{M} w_{i,j} \cdot \frac{1}{u_j^{\text{new}} + \epsilon}\)。这种反向对冲策略确保所有专家都被周期性刷新。

  3. Human-in-the-Loop纠正管线: 将Sim-to-Real gap量化为人类纠正轨迹——当操作员预见失败时接管控制。纠正数据与仿真数据混合,只更新共享的Geo-MoE模块(基础策略冻结),使知识积累路径清晰。

损失函数 / 训练策略

\(\mathcal{L}_{\text{total}} = \text{MSE}(\hat{a}, a) + \alpha \mathcal{L}_{\text{balance}}\)。Balance loss防止门控坍塌。基础策略训练lr=\(3 \times 10^{-4}\),残差学习lr=\(1 \times 10^{-3}\)。Geo-PER采样优先度参数0.6,EMA更新系数0.4。每任务60条纠正轨迹。

实验关键数据

设定 指标 GeCo-SRT Transic+PER Geo-MoE+PER Direct Deploy
单任务迁移 Avg SR(%) 50.0 38.3 - 3.1
持续4任务迁移 Avg SR(%) 63.3 40.0 55.7 3.1
持续4任务迁移 Avg N-NBT(%) 26.5 48.2 36.3 -
数据效率 匹配基线所需数据 1/6 - - -

消融实验要点

  • 观测残差(点云编码器)是最关键组件:加入后SR从3.1%跃升到45.8%
  • 仅加MoE不加观测残差无效(几何路由需要有意义的特征做基础)
  • 观测残差+MoE组合最优(55.8% SR)
  • Geo-PER vs 标准PER:63.3% vs 55.7%,证明专家级优先级优于任务级损失优先级
  • 任务相似性影响迁移效果:PickCube→StackCube正迁移(40%),PlugInsert→StackCube负迁移(16.7%)
  • 专家数N=3最优,N=2和N=8也稳健(60-65%)
  • 新增Faucet/Tidying任务:持续学习(83.3/56.7%)远优于零样本(53.3/30%)和从头训练(76.6/43.3%)

亮点

  • 首次将Sim-to-Real迁移从孤立任务扩展为持续跨任务知识积累范式
  • 局部几何特征的"双重不变性"洞察新颖且经过实验验证——确实是理想的跨域跨任务知识载体
  • Geo-PER将经验回放优先级从任务级转移到专家级的设计独特,针对MoE结构定制
  • 数据效率突出:20条轨迹就能接近从头60条轨迹的性能
  • MoE可解释:可视化显示专家确实自发专精于边缘/角落/平面

局限性 / 可改进方向

  • 主要解决观测gap(视觉层面),对复杂动力学gap(物理层面)效果有限
  • 依赖Human-in-the-Loop纠正数据收集,虽然只需60条轨迹但仍需人工参与
  • 4个任务的规模较小,更大规模的任务序列是否仍然有效待验证
  • 仅使用点云输入,RGB性能明显较差(40% vs 80%)

与相关工作的对比

  • Transic: 同样用人工纠正轨迹做Sim-to-Real迁移,但是行为克隆残差网络,无MoE无持续学习,单任务38.3% vs GeCo-SRT单任务50%
  • Domain Randomization: 需要手工设置随机化范围,且每任务独立;GeCo-SRT自动累积跨任务知识
  • LIBERO/LOTUS等持续学习: 针对纯模仿学习的持续学习,未涉及Sim-to-Real gap;GeCo-SRT首次将持续学习引入Sim-to-Real迁移

启发与关联

  • 几何特征作为跨域不变量的思路可以和之前读的AFRO(3D动态预训练)互补——AFRO学动态,GeCo-SRT用几何做迁移
  • 专家级优先经验回放的设计可以推广到其他MoE-based持续学习系统

评分

  • 新颖性: ⭐⭐⭐⭐ 持续跨任务Sim-to-Real是全新设定,Geo-MoE+Geo-PER组合有原创性
  • 实验充分度: ⭐⭐⭐⭐ 4+3个真实机器人任务,详尽消融+迁移分析+数据效率+可解释性
  • 写作质量: ⭐⭐⭐⭐ 问题驱动清晰,方法叙述有层次
  • 价值: ⭐⭐⭐⭐ 为Sim-to-Real迁移提供了新的持续学习视角,数据效率高