Action–Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation¶
会议: CVPR 2026
arXiv: 2602.23814
代码: https://github.com/Chongyang-99/GAP.git (有)
领域: 机器人/具身智能
关键词: 双臂操作, 3D几何基础模型, 联合动作-几何预测, π3, 扩散策略
一句话总结¶
利用预训练3D几何基础模型π3作为感知骨干,融合3D几何、2D语义和本体感知特征,通过扩散模型联合预测未来动作chunk和未来3D Pointmap,仅使用RGB输入就在RoboTwin双臂基准上全面超越点云方法。
背景与动机¶
双臂操作需要精确的3D空间推理和臂间协调。现有2D方法(ACT、DP)缺乏空间感知,3D方法(DP3)虽然有效但依赖点云获取(需标定、对噪声敏感、难以在真实场景可靠获取)。同时,3D几何基础模型(DUSt3R、π3等)已能从RGB图像直接重建高质量3D结构。问题是:能否直接利用3D基础模型作为感知先验,仅用RGB实现甚至超越点云方法的3D感知?
核心问题¶
能否用预训练3D几何基础模型替代显式点云管线,实现仅RGB输入的3D感知双臂操作策略,并通过联合预测未来3D几何获得预测性规划能力?
方法详解¶
整体框架¶
三路并行编码器融合:π3编码器处理时序RGB提取3D几何特征,DINOv3编码当前帧提取2D语义特征,MLP编码本体感知。三个1024维特征通过4层DETR Encoder融合为语义-几何统一上下文\(\mathbf{f}_c\)。扩散解码器在\(\mathbf{f}_c\)条件下联合去噪生成:(1)未来动作chunk \(a_{t:t+N}\)(双臂各7DoF);(2)未来3D潜在\(\mathbf{f}_{t+N}\),经Dense Head解码为稠密Pointmap \(P_{t+N} \in \mathbb{R}^{H \times W \times 4}\)。
关键设计¶
-
π3几何编码器: 从过去5帧+当前帧共6帧组成的时序序列中,用预训练π3骨干提取3D几何特征。π3是排列等变的多视角3D重建模型,能直接从RGB推断稠密几何。提取最后两层特征拼接为1024维。关键:π3冻结不训练。
-
联合动作-几何预测: 扩散解码器同时预测动作和未来时间步的3D Pointmap潜在\(\mathbf{f}_{t+N}\)。这迫使策略模型"想象"动作执行后的3D场景状态——形成隐式的前瞻规划。消融显示去掉几何想象成功率从25.1%降到23.6%,去掉3D几何模块+几何想象降到21.0%。
-
语义-几何融合: 2D语义(DINOv3)和3D几何(π3)互补:几何提供空间结构,语义提供任务相关的物体理解。单独去掉2D语义降1%不大,但去掉3D+想象降4%,说明3D感知是主要贡献。
损失函数 / 训练策略¶
\(\mathcal{L} = \|a - \hat{a}\|_1 + \lambda\|\mathbf{f}_{t+N} - \hat{\mathbf{f}}_{t+N}\|_1 + \gamma\|P_{t+N} - \hat{P}_{t+N}\|_1\)。用π3预提取所有演示的3D潜在作为伪Ground Truth(时序窗口提取以稳定化)。训练200-600 epoch,batch=32, 4090 GPU。
实验关键数据¶
| RoboTwin 2.0 | 指标 | Ours | DP3 | ACT | DP | RDT |
|---|---|---|---|---|---|---|
| Dominant-select (16任务) | Avg SR(%) | 63.2 | 61.2 | 34.1 | 44.4 | 44.5 |
| Sync-bimanual (8任务) | Avg SR(%) | 51.3 | 40.7 | 32.4 | 37.1 | 47.0 |
| Seq-coordinate (8任务) | Avg SR(%) | 50.4 | 41.1 | 29.4 | 33.6 | 42.3 |
| 真实世界 (4任务) | Avg SR(%) | 40.0 | - | 23.8 | 25.0 | - |
消融实验要点¶
- 去掉2D语义模块: 25.1% → 24.4%(-0.7%),语义是辅助角色
- 去掉几何想象: 25.1% → 23.6%(-1.5%),预测未来3D对规划很重要
- 去掉3D几何+几何想象: 25.1% → 21.0%(-4.1%),3D感知是核心
- 数据效率:仅10条演示时本方法已有学习信号,2D方法DP完全失败(0%)
- 真实世界Hang Mug任务:ACT/DP都是0%,本方法20%,证明3D推理对复杂任务的价值
亮点¶
- 用RGB图像直接输入3D基础模型即超越显式点云方法,避免了标定和点云采集的工程开销
- "预测未来3D Pointmap"的设计优雅——既是辅助训练信号也是隐式前瞻规划
- 32个RoboTwin任务+4个真实任务的评估规模在双臂操作领域罕见
- 数据效率优势明显:预训练特征让低数据区间性能远超从头训练的2D方法
局限性 / 可改进方向¶
- 仅预测单步3D(N步后的Pointmap),缺乏多步3D轨迹预测和持久3D记忆
- 依赖π3的预训练质量,对π3未见过的场景可能退化
- 真实实验仅50条演示训练,规模有限
- Pointmap解码可选跳过说明推理效率有提升空间
与相关工作的对比¶
- DP3: 使用显式点云,需标定和噪声处理;本文仅RGB但通过π3获得更好的3D感知,全面超越DP3
- G3Flow: 将2D特征投射到3D,依赖DINOv2+语义流;本文用π3直接在3D潜在空间工作
- RDT: 1.2B参数基础模型,在Seq-coordinate上42.3% vs 本文50.4%,证明3D预测比大模型更有效
- Xu et al.: 联合预测动作+未来图像帧(2D),本文预测3D Pointmap更具几何一致性
启发与关联¶
- π3等3D基础模型作为"即插即用"的几何骨干用于操作策略是一个有前景的方向
- 联合动作-几何预测的范式可以推广到单臂操作和导航任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将π3等3D几何基础模型用于双臂操作+联合几何预测
- 实验充分度: ⭐⭐⭐⭐⭐ 32个仿真任务+4个真实任务+数据效率+消融,评估极为全面
- 写作质量: ⭐⭐⭐⭐ 方法叙述清晰,实验层次分明
- 价值: ⭐⭐⭐⭐ 为RGB-only的3D感知双臂操作提供了实用范式