RoTri-Diff: A Spatial Robot-Object Triadic Interaction-Guided Diffusion Model for Bimanual Manipulation¶

日期: 2026-03-07
arXiv: 2603.07165
代码: 项目主页
领域: 图像生成
关键词: bimanual manipulation, diffusion model, triadic interaction, imitation learning, 6D pose

一句话总结¶

提出 RoTri-Diff，通过显式建模双臂与物体之间的三元空间交互关系（RoTri），并将其融入层次化扩散模型，实现稳定、精确的双臂协调操作，在 RLBench2 的 11 个任务上平均成功率超越 SOTA 10.2%。

研究背景与动机¶

双臂操作（Bimanual Manipulation）是机器人执行复杂任务的核心能力，要求两条机械臂之间持续精确的协调。模仿学习（Imitation Learning）是当前主流范式，但现有方法存在明显局限：

以机器人为中心的方法：包括关键位姿预测（keypose-based，如 PerAct2、AnyBimanual）和连续动作生成（如 ACT、DP3），以及混合方法（如 3D Diffuser Actor）。关键位姿方法因稀疏监督导致中间状态控制不佳，易产生碰撞；连续动作方法过拟合严重，泛化性差；混合方法无法捕捉物体的动态状态。
以物体为中心的方法（如 PPI）：引入物体点流（pointflow）增强空间感知，但忽略了机器人与物体之间的显式交互关系，导致操作不稳定（如物体在抓取前滑落）。

核心观察：人类在双手操作时会自然维持一种三元空间感知——既关注双手之间的关系，也关注每只手与物体的关系。这种三元推理隐式编码了手间距离、手-物关系及其动态交互。UMI [Chi et al.] 的研究也表明，提供夹爪之间的相对位姿对双臂协调至关重要。

方法详解¶

整体框架¶

RoTri-Diff 是一个层次化扩散模型，首次将三个关键指导信号统一到双臂模仿学习框架中：

Robot Keyposes：关键位姿，用于长程规划
Object Pointflow：物体点流，捕捉物理动态
RoTri Representation：机器人-物体三元交互表示，维持稳定的空间关系

整个推理过程分为三个层次化阶段： - 阶段一：同时预测物体点流和连续的 RoTri 段 - 阶段二：基于预测的点流和关键时刻的 RoTri，生成关键位姿动作 - 阶段三：整合上述三个信号，生成连续动作序列

关键设计¶

1. RoTri 表示（Robot-Object Triadic Interaction）¶

RoTri 向量紧凑地编码了双臂末端执行器与被操作物体之间的三元空间关系：

\[R_0 = [p_{\text{left}\to\text{right}}^0, \; p_{\text{left}\to\text{obj}}^0, \; p_{\text{right}\to\text{obj}}^0] \in \mathbb{R}^{21}\]

每个 7 维分量包含 3D 位置 + 4D 四元数 (x, y, z, w)，共三对相对位姿 → 21 维向量。该表示建立了双臂与物体之间的连续三角几何约束。

多物体扩展：对于涉及多个被操作物体的任务，为每个物体构建 RoTri 向量，通过置换不变的 Transformer 编码器聚合，再投影回固定 21 维表示。

2. 增量式 RoTri 预测¶

并非直接预测完整 RoTri 轨迹，而是学习其动态演化——预测增量 \(\\Delta R_t\)，通过累加获得下一时刻的 RoTri：

\[R_t = R_{t-1} + \Delta R_t\]

这将学习重点从复杂的绝对位姿推理转向捕捉相对交互动态。

3. 视觉感知¶

使用 DINOv2 提取多视角 2D 语义特征，融合到 3D 点云
PointNet++ 编码器压缩为紧凑的场景表示 \(S_t \in \mathbb{R}^{N_s \times (3+D)}\)
使用 Grounding DINO + SAM 从语言指令获取物体掩码，采样 \(N_q=200\) 个初始物体点

4. 层次化扩散与协同注意力¶

在去噪过程中，模型整合多种 token（RoTri token、场景 token、语言 token、物体点 token、噪声动作 token），使用带旋转位置编码的相对自注意力机制。包含两个并行过程：

物体点流预测（One-shot）：F₀ token 关注场景 token，MLP 预测关键位姿时刻的 xyz 坐标
自回归 RoTri 预测：按关键位姿段逐步预测，每段 RoTri 轨迹以前一段的最终 RoTri 状态为条件

关键位姿动作和连续动作依次在 RoTri、点流和场景特征的引导下生成。

5. 训练目标¶

总损失由四项组成：

\[\mathcal{L}_\theta = w_c \mathcal{L}_c + w_k \mathcal{L}_k + w_{pf} \mathcal{L}_{pf} + w_{\text{rotri}} \mathcal{L}_{\text{rotri}}\]

其中 \(w_c = w_k = 0.05\)，\(w_{pf} = w_{\text{rotri}} = 1.0\)，所有损失使用 L1 范数。仿真训练 500 epoch，真实世界训练 1000 epoch，batch size 64，8×A5000 GPU。

实验关键数据¶

主实验¶

在 RLBench2 的 11 个双臂操作任务上，涵盖三种协调类型：

方法	平均成功率	Push Buttons	Lift Ball	Lift Tray	Push Box	Handover (Easy)	Handover (Hard)	Pick Laptop	Put in Drawer	Sweep Dustpan	Pick Plate	Bottle in Fridge
ACT	5.9%	4.0	38.3	1.3	67.0	0.0	0.0	0.0	1.7	0.0	0.0	0.0
PerAct2	16.8%	47.0	50.0	60.0	62.0	19.7	11.0	36.7	49.7	2.0	4.0	3.0
AnyBimanual	39.9%	73.0	36.0	67.0	46.0	44.0	15.0	7.0	50.0	67.0	8.0	26.0
PPI	70.7%	92.0	89.3	92.0	96.7	62.7	37.3	46.3	79.7	98.7	0.0	82.6
RoTri-Diff	80.9%	97.0	95.7	94.3	95.0	73.3	52.3	66.0	87.0	96.7	40.7	92.0

RoTri-Diff 在 11 个任务中的 9 个取得最高成功率，平均超越 PPI（前 SOTA）10.2 个百分点。

消融实验¶

变体	Push Buttons	Lift Tray	Pick Plate	Bottle in Fridge
RoTri (Keypose Only)	93.7%	92.6%	29.3%	90.3%
RoTri (Continuous Only)	95.3%	88.7%	21.3%	86.0%
RoTri-Diff (Full)	97.0%	94.3%	40.7%	92.0%

此外，Sparse RoTri 实验（每 5 步/10 步提供 RoTri 引导）表明： - Push Buttons: Dense 97.0% → 5-step 96.3% → 10-step 96.0% - Pick Plate: Dense 40.7% → 5-step 37.0%（下降明显）

真实世界实验（4 个任务，每个 5 次试验）：

任务	成功率
Pick Tomato & Banana（对称协调）	5/5
Pick Plate（异步协调）	3/5
Wash Plate（异步协调）	4/5
Lift Basket（同步协调）	4/5

关键发现¶

RoTri 表示是关键贡献：PPI 在 Pick Plate 上完全失败（0%），而 RoTri-Diff 达到 40.7%，说明显式建模三元空间交互对需精确协调的任务至关重要
层次化设计不可或缺：仅用关键位姿或仅用连续动作的 RoTri 变体均显著不如完整框架，在 Pick Plate 上分别只有 29.3% 和 21.3%
密集的时序引导优于稀疏引导：Dense per-timestep RoTri 引导在精度要求高的任务上显著优于稀疏采样
三种协调模式均有效：对称、同步、异步三类双臂协调任务均有提升，尤其在异步协调（需严格时序依赖）任务上优势最大

亮点与洞察¶

三元交互的新视角：RoTri 将双臂操作抽象为三角几何约束问题（左臂-右臂-物体），提供了统一、紧凑的交互表示，这一思路可推广到其他多体交互场景
增量预测的稳健性：预测 \(\Delta R_t\) 而非绝对 \(R_t\)，降低了学习难度，类似于光流vs.直接位置预测的设计理念
层次化扩散的优雅设计：三阶段扩散过程——点流/RoTri → 关键位姿 → 连续动作，每一层的输出都成为下一层的条件，形成信息逐步细化的级联结构
自回归 RoTri + 扩散去噪的结合：在扩散去噪的每一步内嵌入自回归 RoTri 预测，实现了全局规划与局部执行的一致性

局限性 / 可改进方向¶

刚体假设：RoTri 基于 6D 位姿建模，依赖刚体假设，无法处理可变形物体（如布料、绳索）
依赖精确 6D 位姿估计：训练需要物体 6D 位姿 GT（仿真中直接获取，真实世界依赖外部估计器），位姿估计误差会级联传播
真实世界实验规模有限：仅 4 个真实任务、每个 5 次试验，统计显著性不强
Pick Plate 的绝对性能仍不高：即使是最佳方法也只有 40.7%，说明此类高精度异步协调仍是开放挑战
计算开销较大：层次化三阶段扩散 + 自回归 RoTri 预测增加了推理复杂度，推理时 DDIM 需 20 步去噪
跨平台迁移：未验证跨不同机器人平台的适用性

评分¶

维度	分数 (1-10)	说明
新颖性	7	三元交互表示是新颖视角，但扩散+模仿学习框架本身不算新
技术深度	8	层次化扩散架构设计精细，RoTri建模与自回归预测结合有深度
实验充分性	7	11个仿真任务+4个真实任务覆盖全面，但真实世界规模偏小
写作质量	8	动机清晰、结构完整、图表丰富
影响力	7	对双臂操作领域有直接推动，三元交互思想有一定推广价值
综合	7.5	扎实的工作，核心贡献（RoTri表示+层次化扩散）清晰且有效