GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer¶

会议: CVPR 2026
arXiv: 2602.20871
代码: 无
领域: 机器人/具身智能
关键词: Sim-to-Real迁移, 持续学习, 几何感知MoE, 点云表征, 经验回放

一句话总结¶

GeCo-SRT提出持续跨任务Sim-to-Real迁移范式，利用局部几何特征的域不变性和任务不变性，通过几何感知MoE模块提取可复用的几何知识并用专家引导的优先经验回放防遗忘，在4个操作任务上比基线平均提升52%成功率且仅需1/6数据。

背景与动机¶

传统Sim-to-Real方法（系统辨识、域随机化、数据驱动迁移）将每次迁移视为独立过程——每个新任务都需从头调参、重新收集数据，成本高且浪费先前经验。核心问题在于：不同任务之间的Sim-to-Real gap实际上共享大量结构化的跨域知识（如几何形状在仿真和现实中一致），但现有方法无法在任务间积累复用这些知识。

核心问题¶

如何在多个Sim-to-Real任务之间持续积累可迁移知识，使得每个新任务的迁移更快更好，而非每次从零开始？什么样的知识载体既跨域又跨任务？

方法详解¶

整体框架¶

采用Human-in-the-Loop的Sim-to-Real管线：先在仿真中用2000条专家轨迹训练基础扩散策略，部署到真实环境时人类操作员通过SpaceMouse实时纠正（60条纠正轨迹），将纠正数据与仿真数据混合训练一个共享的感知残差模块。该残差模块跨任务共享并持续更新，实现知识积累。

关键设计¶

几何感知混合专家（Geo-MoE）: 作为感知残差模块。从输入点云中用kNN采样局部点组，通过PCA提取局部几何特征（平面度、线性度、显著性），用这些几何特征驱动门控网络将点组路由到不同专家。每个专家专精于特定的几何知识（如边缘、角落、平面）。输出残差向量与冻结的基础编码器特征拼接后送入扩散策略头。核心洞察：局部几何特征具有双重不变性——域不变（仿真和现实中几何结构一致）且任务不变（不同操作任务共享平面/边缘等基本几何元素）。
几何专家引导的优先经验回放（Geo-PER）: 标准PER按任务损失采样，忽视闲置专家导致其遗忘。Geo-PER将优先级从任务损失转移到专家利用率：如果某专家在当前任务被低利用（\(u_j^{\text{new}}\)低），则优先从历史buffer中采样那些强激活该专家的样本（\(w_{i,j}\)高），公式：\(P_i \propto \sum_{j=1}^{M} w_{i,j} \cdot \frac{1}{u_j^{\text{new}} + \epsilon}\)。这种反向对冲策略确保所有专家都被周期性刷新。
Human-in-the-Loop纠正管线: 将Sim-to-Real gap量化为人类纠正轨迹——当操作员预见失败时接管控制。纠正数据与仿真数据混合，只更新共享的Geo-MoE模块（基础策略冻结），使知识积累路径清晰。

损失函数 / 训练策略¶

\(\mathcal{L}_{\text{total}} = \text{MSE}(\hat{a}, a) + \alpha \mathcal{L}_{\text{balance}}\)。Balance loss防止门控坍塌。基础策略训练lr=\(3 \times 10^{-4}\)，残差学习lr=\(1 \times 10^{-3}\)。Geo-PER采样优先度参数0.6，EMA更新系数0.4。每任务60条纠正轨迹。

实验关键数据¶

设定	指标	GeCo-SRT	Transic+PER	Geo-MoE+PER	Direct Deploy
单任务迁移	Avg SR(%)	50.0	38.3	-	3.1
持续4任务迁移	Avg SR(%)	63.3	40.0	55.7	3.1
持续4任务迁移	Avg N-NBT(%)	26.5	48.2	36.3	-
数据效率	匹配基线所需数据	1/6	-	-	-

消融实验要点¶

观测残差（点云编码器）是最关键组件：加入后SR从3.1%跃升到45.8%
仅加MoE不加观测残差无效（几何路由需要有意义的特征做基础）
观测残差+MoE组合最优（55.8% SR）
Geo-PER vs 标准PER：63.3% vs 55.7%，证明专家级优先级优于任务级损失优先级
任务相似性影响迁移效果：PickCube→StackCube正迁移（40%），PlugInsert→StackCube负迁移（16.7%）
专家数N=3最优，N=2和N=8也稳健（60-65%）
新增Faucet/Tidying任务：持续学习（83.3/56.7%）远优于零样本（53.3/30%）和从头训练（76.6/43.3%）

亮点¶

首次将Sim-to-Real迁移从孤立任务扩展为持续跨任务知识积累范式
局部几何特征的"双重不变性"洞察新颖且经过实验验证——确实是理想的跨域跨任务知识载体
Geo-PER将经验回放优先级从任务级转移到专家级的设计独特，针对MoE结构定制
数据效率突出：20条轨迹就能接近从头60条轨迹的性能
MoE可解释：可视化显示专家确实自发专精于边缘/角落/平面

局限性 / 可改进方向¶

主要解决观测gap（视觉层面），对复杂动力学gap（物理层面）效果有限
依赖Human-in-the-Loop纠正数据收集，虽然只需60条轨迹但仍需人工参与
4个任务的规模较小，更大规模的任务序列是否仍然有效待验证
仅使用点云输入，RGB性能明显较差（40% vs 80%）

与相关工作的对比¶

Transic: 同样用人工纠正轨迹做Sim-to-Real迁移，但是行为克隆残差网络，无MoE无持续学习，单任务38.3% vs GeCo-SRT单任务50%
Domain Randomization: 需要手工设置随机化范围，且每任务独立；GeCo-SRT自动累积跨任务知识
LIBERO/LOTUS等持续学习: 针对纯模仿学习的持续学习，未涉及Sim-to-Real gap；GeCo-SRT首次将持续学习引入Sim-to-Real迁移

启发与关联¶

几何特征作为跨域不变量的思路可以和之前读的AFRO（3D动态预训练）互补——AFRO学动态，GeCo-SRT用几何做迁移
专家级优先经验回放的设计可以推广到其他MoE-based持续学习系统

评分¶

新颖性: ⭐⭐⭐⭐ 持续跨任务Sim-to-Real是全新设定，Geo-MoE+Geo-PER组合有原创性
实验充分度: ⭐⭐⭐⭐ 4+3个真实机器人任务，详尽消融+迁移分析+数据效率+可解释性
写作质量: ⭐⭐⭐⭐ 问题驱动清晰，方法叙述有层次
价值: ⭐⭐⭐⭐ 为Sim-to-Real迁移提供了新的持续学习视角，数据效率高