E3Flow: Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics¶
日期: 2026-03-24
arXiv: 2603.23227
代码: 无
领域: 3D视觉 / 机器人操作 / 等变学习
关键词: SE(3)-equivariant, flow matching, spherical harmonics, robot manipulation, multi-modal fusion
一句话总结¶
首次统一 SE(3) 等变学习和 rectified flow,提出 E3Flow:用球谐函数保证旋转等变性 + Feature Enhancement Module 融合点云和图像 + flow matching 实现 7× 快速推理,在 MimicGen 8 任务上达 79% 成功率(+3.12% vs SDP)且推理快 7 倍。
研究背景与动机¶
-
领域现状: 等变扩散策略(SDP、EquiDiff)通过 SE(3) 等变性大幅提升数据效率,但迭代去噪推理慢(>3s);flow matching 可实现少步采样但未与等变性结合。
-
现有痛点: 等变方法通常只用点云单模态输入、计算量大、与快速采样方法结合不稳定。
-
核心矛盾: 数据效率(等变性)和推理速度(flow matching)难以同时优化。
-
核心 idea: 用球谐表示保证 SO(3) 等变性 + FEM 模块自适应门控融合图像语义到点云特征 + rectified flow 替代扩散。
方法详解¶
整体框架¶
输入点云 + RGB 图像,通过 EquiformerV2(球谐 3D 编码器)和 ResNet(2D 编码器)分别提取特征,FEM 模块跨模态门控融合,rectified flow 10 步生成动作序列。全程保持 SE(3) 等变性。
关键设计¶
-
球谐特征表示:
- 3D 特征用球谐函数编码:\(f(\theta,\phi)=\sum_{l}\sum_{m=-l}^{l}c_l^m Y_l^m(\theta,\phi)\)
- 旋转变换:\(Y_l^m(R^{-1}\hat{r})=\sum_{m'} D_{mm'}^{(l)}(R)Y_l^{m'}(\hat{r})\)
- 自然解耦等变部分(\(l>0\) 阶,保持旋转结构)和不变部分(\(l=0\) 阶,处理视觉语义)
- 比 group convolution/Wigner-D 更高效
-
Feature Enhancement Module (FEM):
- \(f_{\text{fused}}=\Pi[\Lambda(\mathcal{A}(f_{\text{pcd}}^{(0)}, f_{\text{img}}), f_{\text{pcd}}^{(0)}) \| f_{\text{pcd}}^{(>0)}]\)
- 跨模态注意力 \(\mathcal{A}\) 将图像语义注入点云的不变分量(\(l=0\))
- 门控 \(\Lambda\) 自适应控制注入强度
- 等变分量(\(l>0\))保持不变——只在不变空间做跨模态融合
- 简单拼接反而降性能 7%(72.36% vs 79.00%),说明等变空间中的跨模态对齐是关键
-
Rectified Flow 替代扩散:
- ODE:\(\frac{d\xi_x(t)}{dt}=v_\theta(t,\xi_x(t),s,v)\)
- 训练损失:\(\mathcal{L}_{\text{RF}}=\mathbb{E}[\|v_\theta(x_t,t,s,v)-(a-x_0)\|^2]\)
- 线性插值 \(x_t=(1-t)x_0+ta\),比 DDPM 的噪声 schedule 更直接
- 等变性保证:\(v_\theta(\rho*x_t,t,\rho*s,\rho*v)=\rho*v_\theta(x_t,t,s,v)\)
实验关键数据¶
MimicGen 8 任务¶
| 方法 | 平均成功率 | 推理时间 |
|---|---|---|
| DP3 (非等变) | 47.50% | 0.109s |
| EquiDiff (voxel) | 68.50% | 1.10s |
| EquiDiff (img) | - | 2.51s |
| SDP (DDPM) | 75.88% | 3.73s |
| SDP (DDIM) | 69.75% | 0.46s |
| E3Flow | 79.00% | 0.51s |
- E3Flow vs SDP: +3.12% 成功率,7.3× 推理加速
- 关键任务:Stack_Three 100% vs SDP 98%,Hammer 84% vs SDP 74%
真机实验¶
| 任务 | E3Flow | SDP | EquiDiff | DP |
|---|---|---|---|---|
| Stack Blocks | 95% | 70% | 40% | 20% |
| Bottle Place | 80% | 60% | 30% | 15% |
| Storing Toys | 70% | 55% | 25% | 10% |
| Assembly | 60% | 65% | 25% | 20% |
| 平均 | 76% | 62% | 30% | 16% |
消融实验¶
| 输入 | 融合方式 | 生成器 | 成功率 |
|---|---|---|---|
| 仅点云 | - | RF | 75.88% |
| 点云+图像 | 拼接 | RF | 72.36% (↓) |
| 点云+图像 | FEM | RF | 79.00% |
| 点云+图像 | FEM | Diffusion | 77.58% |
- FEM vs 拼接:+6.64%,跨模态对齐在等变空间至关重要
- RF vs Diffusion:+1.42%
- RF-1步 69% → RF-5步 71% → RF-10步 79%,10 步是最优平衡
SE(3) 零样本迁移(10° 倾斜桌面)¶
- Nut_Assembly: 94%→52%(仍优于 SDP 倾斜后的表现)
- 数据效率:100 demo ≈ baseline 200 demo
亮点与洞察¶
- 等变性+flow matching 的首次成功统一,证明两者互补而非冲突——等变性保证数据效率,flow 保证推理速度
- FEM 的门控融合在等变空间中只修改不变分量(\(l=0\)),保持等变分量不受污染——这个设计很精到
- 简单拼接反而降性能是重要 negative result——说明多模态融合在等变空间中需要特殊处理
- 真机 76% vs SDP 62% 验证了 sim-to-real 迁移能力
局限性 / 可改进方向¶
- EquiformerV2 计算量仍较大,实时性有提升空间
- 单视角点云遮挡问题 FEM 缓解了但未根除
- 1 步采样 69% 不够——等变特征可能需要比普通特征更多迭代来细化
- 真机只测了 4 个任务,复杂操作验证不足
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次统一等变+flow matching,FEM 设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 8 仿真任务 + 4 真机任务 + 系统消融 + 零样本迁移
- 写作质量: ⭐⭐⭐⭐ 技术描述清晰,球谐部分公式完整
- 价值: ⭐⭐⭐⭐ 对机器人策略学习有实用价值,等变+flow 路线值得跟进