跳转至

E3Flow: Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics

日期: 2026-03-24
arXiv: 2603.23227
代码: 无
领域: 3D视觉 / 机器人操作 / 等变学习
关键词: SE(3)-equivariant, flow matching, spherical harmonics, robot manipulation, multi-modal fusion

一句话总结

首次统一 SE(3) 等变学习和 rectified flow,提出 E3Flow:用球谐函数保证旋转等变性 + Feature Enhancement Module 融合点云和图像 + flow matching 实现 7× 快速推理,在 MimicGen 8 任务上达 79% 成功率(+3.12% vs SDP)且推理快 7 倍。

研究背景与动机

  1. 领域现状: 等变扩散策略(SDP、EquiDiff)通过 SE(3) 等变性大幅提升数据效率,但迭代去噪推理慢(>3s);flow matching 可实现少步采样但未与等变性结合。

  2. 现有痛点: 等变方法通常只用点云单模态输入、计算量大、与快速采样方法结合不稳定。

  3. 核心矛盾: 数据效率(等变性)和推理速度(flow matching)难以同时优化。

  4. 核心 idea: 用球谐表示保证 SO(3) 等变性 + FEM 模块自适应门控融合图像语义到点云特征 + rectified flow 替代扩散。

方法详解

整体框架

输入点云 + RGB 图像,通过 EquiformerV2(球谐 3D 编码器)和 ResNet(2D 编码器)分别提取特征,FEM 模块跨模态门控融合,rectified flow 10 步生成动作序列。全程保持 SE(3) 等变性。

关键设计

  1. 球谐特征表示:

    • 3D 特征用球谐函数编码:\(f(\theta,\phi)=\sum_{l}\sum_{m=-l}^{l}c_l^m Y_l^m(\theta,\phi)\)
    • 旋转变换:\(Y_l^m(R^{-1}\hat{r})=\sum_{m'} D_{mm'}^{(l)}(R)Y_l^{m'}(\hat{r})\)
    • 自然解耦等变部分(\(l>0\) 阶,保持旋转结构)和不变部分(\(l=0\) 阶,处理视觉语义)
    • 比 group convolution/Wigner-D 更高效
  2. Feature Enhancement Module (FEM):

    • \(f_{\text{fused}}=\Pi[\Lambda(\mathcal{A}(f_{\text{pcd}}^{(0)}, f_{\text{img}}), f_{\text{pcd}}^{(0)}) \| f_{\text{pcd}}^{(>0)}]\)
    • 跨模态注意力 \(\mathcal{A}\) 将图像语义注入点云的不变分量(\(l=0\)
    • 门控 \(\Lambda\) 自适应控制注入强度
    • 等变分量(\(l>0\))保持不变——只在不变空间做跨模态融合
    • 简单拼接反而降性能 7%(72.36% vs 79.00%),说明等变空间中的跨模态对齐是关键
  3. Rectified Flow 替代扩散:

    • ODE:\(\frac{d\xi_x(t)}{dt}=v_\theta(t,\xi_x(t),s,v)\)
    • 训练损失:\(\mathcal{L}_{\text{RF}}=\mathbb{E}[\|v_\theta(x_t,t,s,v)-(a-x_0)\|^2]\)
    • 线性插值 \(x_t=(1-t)x_0+ta\),比 DDPM 的噪声 schedule 更直接
    • 等变性保证:\(v_\theta(\rho*x_t,t,\rho*s,\rho*v)=\rho*v_\theta(x_t,t,s,v)\)

实验关键数据

MimicGen 8 任务

方法 平均成功率 推理时间
DP3 (非等变) 47.50% 0.109s
EquiDiff (voxel) 68.50% 1.10s
EquiDiff (img) - 2.51s
SDP (DDPM) 75.88% 3.73s
SDP (DDIM) 69.75% 0.46s
E3Flow 79.00% 0.51s
  • E3Flow vs SDP: +3.12% 成功率,7.3× 推理加速
  • 关键任务:Stack_Three 100% vs SDP 98%,Hammer 84% vs SDP 74%

真机实验

任务 E3Flow SDP EquiDiff DP
Stack Blocks 95% 70% 40% 20%
Bottle Place 80% 60% 30% 15%
Storing Toys 70% 55% 25% 10%
Assembly 60% 65% 25% 20%
平均 76% 62% 30% 16%

消融实验

输入 融合方式 生成器 成功率
仅点云 - RF 75.88%
点云+图像 拼接 RF 72.36% (↓)
点云+图像 FEM RF 79.00%
点云+图像 FEM Diffusion 77.58%
  • FEM vs 拼接:+6.64%,跨模态对齐在等变空间至关重要
  • RF vs Diffusion:+1.42%
  • RF-1步 69% → RF-5步 71% → RF-10步 79%,10 步是最优平衡

SE(3) 零样本迁移(10° 倾斜桌面)

  • Nut_Assembly: 94%→52%(仍优于 SDP 倾斜后的表现)
  • 数据效率:100 demo ≈ baseline 200 demo

亮点与洞察

  • 等变性+flow matching 的首次成功统一,证明两者互补而非冲突——等变性保证数据效率,flow 保证推理速度
  • FEM 的门控融合在等变空间中只修改不变分量(\(l=0\)),保持等变分量不受污染——这个设计很精到
  • 简单拼接反而降性能是重要 negative result——说明多模态融合在等变空间中需要特殊处理
  • 真机 76% vs SDP 62% 验证了 sim-to-real 迁移能力

局限性 / 可改进方向

  • EquiformerV2 计算量仍较大,实时性有提升空间
  • 单视角点云遮挡问题 FEM 缓解了但未根除
  • 1 步采样 69% 不够——等变特征可能需要比普通特征更多迭代来细化
  • 真机只测了 4 个任务,复杂操作验证不足

评分

  • 新颖性: ⭐⭐⭐⭐ 首次统一等变+flow matching,FEM 设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 8 仿真任务 + 4 真机任务 + 系统消融 + 零样本迁移
  • 写作质量: ⭐⭐⭐⭐ 技术描述清晰,球谐部分公式完整
  • 价值: ⭐⭐⭐⭐ 对机器人策略学习有实用价值,等变+flow 路线值得跟进