One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies¶
日期: 2026-03-12
arXiv: 2603.12480
代码: 无
领域: 图像生成 / 机器人策略
关键词: flow matching, self-distillation, one-step, visuomotor policy, consistency
一句话总结¶
提出 One-Step Flow Policy (OFP),通过从零开始的自蒸馏框架(自一致性 loss + 自引导正则化 + warm-start),无需预训练教师即可实现单步动作生成——在 56 个仿真操作任务上 1-NFE 平均成功率 71.6%,超越 100 步 DP3 基线(66.4%),推理仅需 17.58 ms(加速 183×)。
研究背景与动机¶
- 领域现状: 基于 flow/diffusion 的机器人策略(如 Diffusion Policy、FM Policy)能有效建模多模态动作分布,但采样需要 10-100 步 ODE 求解,每次动作生成需要数秒。
- 现有加速方案的不足:
- Consistency Policy (CP): 依赖预训练 teacher 做蒸馏,且 mode-covering 特性导致单步预测过于平滑,精度不足
- OneDP: 使用 score distillation,mode-seeking 产生尖锐但多样性不足的动作,且只支持单步推理无法灵活调整
- MeanFlow (MP1): 训练中引入 Jacobian-vector products (JVPs),内存开销大且优化不稳定
- 核心动机: 能否设计一个无需预训练教师、从零训练的自蒸馏框架,同时兼顾单步精度和多步灵活性?
方法详解¶
1. Self-Consistency Loss(自一致性损失)¶
- 对 flow ODE 轨迹上不同时间步的点,强制模型预测映射到同一终点
- 类似 Consistency Model 的思想,但不需要教师——模型自身在不同时间区间的预测作为一致性约束
- 主要作用:保证 few-step 推理的可靠性
2. Self-Guided Regularization(自引导正则化)¶
- 借鉴 Classifier-Free Guidance 思想:模型同时学习条件/无条件速度场
- 两者的差异(score 差)作为分布级别的修正信号,将预测推向高密度专家模式
- 主要作用:驱动单步推理的性能提升,避免 mode-averaging
3. Warm-Start Mechanism(热启动,无需训练)¶
- 利用机器人动作的时间连续性:相邻时间步的动作高度相关
- 推理时用前一步动作预测初始化当前步的噪声起点,缩短 flow 传输距离
- 训练无关(training-free),在任意 NFE 下都能提升性能
设计优势¶
- 不需要预训练教师模型,端到端从零训练
- 不引入 JVP 计算,训练稳定且内存友好
- 支持灵活 NFE:单步低延迟 or 多步高精度
实验关键数据¶
2D 图像条件操控(7 个任务,Adroit + DexArt)¶
| 方法 | NFE | 平均成功率 |
|---|---|---|
| DP (Diffusion Policy) | 100 | 64.2% |
| FM Policy | 100 | 67.2% |
| CP | 1 | 59.7% |
| OneDP | 1 | 63.3% |
| MP1 | 1 | 60.5% |
| OFP (Ours) | 1 | 68.3% |
3D 点云条件操控(56 个任务,Adroit + DexArt + MetaWorld)¶
| 方法 | NFE | Adroit (3) | MetaWorld Easy (28) | MetaWorld Hard (5) | 平均 |
|---|---|---|---|---|---|
| DP3 | 100 | 79.0% | 82.8% | 38.3% | 66.4% |
| FM Policy | 100 | 83.3% | 68.9% | 43.6% | 59.8% |
| OneDP | 1 | 77.3% | 77.7% | 38.7% | 62.4% |
| OFP | 1 | 85.0% | 87.9% | 43.3% | 71.6% |
推理速度¶
- OFP: 17.58 ms/action chunk vs DP3 (NFE=100): 3225.67 ms → 183× 加速
- vs FM Policy (NFE=100): 1865.72 ms → 106× 加速
VLA 集成(π₀.₅ + RoboTwin 2.0,4 个任务)¶
- OFP (NFE=1) 平均成功率 94.7%,超越原始 π₀.₅ (NFE=10) 基线
- 对比其他加速方法(CFM、Shortcut Models、iMF)均取得最高平均成功率
灵活 NFE 与数据效率¶
- OFP NFE=1 → 4 时性能从 64.5% 提升到 66.2%,支持延迟-精度灵活权衡
- 数据稀缺场景(20 demos)下 OFP 维持 32.7% 成功率,MP1 急剧退化
消融实验¶
- 自一致性损失:保证 few-step 推理的可靠性
- 自引导正则化:驱动单步性能提升
- Warm-start:训练无关的推理先验,在任意 NFE 下一致提升
亮点与洞察¶
- 三种机制互补优雅:一致性保证多步、引导保证单步精度、热启动利用领域先验
- 单步生成反而超越 100 步基线,体现了自蒸馏的正则化效果
- 在大规模 VLA(π₀.₅)上依然有效,证明方法不局限于小模型
- 与同期 OneDP 形成对比:OFP 不需要教师且支持灵活 NFE
评分¶
- 新颖性: ⭐⭐⭐⭐ 自蒸馏三机制组合新颖,warm-start 利用领域特性
- 实验充分度: ⭐⭐⭐⭐⭐ 56 任务 + π₀.₅ 集成 + 消融 + 数据效率分析
- 价值: ⭐⭐⭐⭐ 实用的策略加速方案,183× 加速且性能不降反升