跳转至

Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

会议: NeurIPS 2025
arXiv: 2510.21991
代码: 无
领域: 机器人操控, 扩散策略加速
关键词: 遗传扩散策略, 裁剪缺陷, 少步去噪, 群体采样, OoD风险

一句话总结

通过揭示扩散策略中裁剪操作导致的分布失配本质,提出结合去噪调度优化与遗传算法群体选择的GDP方法,使现成DDPM扩散策略无需重训练即可在仅2步推理下达到甚至超越100步基线的操控性能。

研究背景与动机

领域现状:扩散策略(Diffusion Policy)已在机器人操控领域取得SOTA效果,通过建模专家动作的完整分布避免了模式崩溃,在多种操控基准上表现优异。

现有痛点:扩散模型的推理过程是序列化且计算昂贵的,需要数十到上百步去噪才能生成高质量动作,这对需要实时响应的机器人应用是严重瓶颈。现有加速方案(蒸馏、一致性模型、快捷流匹配)均需额外训练新模型或架构修改,增加了工程复杂度。

核心矛盾:图像生成领域开发的推理策略被直接迁移到机器人控制领域,但两个领域在分布维度、实时性要求、内存约束上存在本质差异——图像分布高维(外在维度2^16,内在维度~25)且对延迟不敏感,机器人动作分布低维(24-30维外在,内在~11维)但要求极快响应。

本文目标:如何在不重新训练的前提下,大幅减少现成扩散策略的推理步数(从100步降至2步),同时保持甚至提升性能?

切入角度:从裁剪(clipping)操作引发的OoD问题入手,发现减少去噪步数和噪声注入在机器人领域(与图像生成相反)是有益的,并提出遗传算法来进一步优化去噪轨迹的选择。

核心 idea:利用机器人动作空间的低维特性,通过遗传算法的群体选择机制筛选低OoD风险的去噪轨迹,配合调度优化和噪声缩减,实现2步高质量采样。

方法详解

整体框架

GDP方法建立在三层递进的改进之上:

  1. 诊断层:揭示DDPM推理中裁剪操作在t≈T时将x̂₀估计饱和到超立方体角点{-1,1}^d,造成推理分布(集中在角点)与训练分布(分布在内部)的严重失配,且裁剪频率与任务回报呈明显负相关
  2. 经验优化层:通过截断去噪时间表(从t_δ<T开始,跳过无信息的早期步骤)和降低噪声注入比例γ来减少裁剪发生,利用探索-利用权衡偏向利用端
  3. 遗传增强层:引入群体采样+适应度选择的遗传算法机制,在每个去噪步中评估多个候选轨迹的OoD风险,选择并复制低风险轨迹,系统性地引导去噪过程走向分布内

关键设计

  1. 裁剪缺陷分析与调度优化

    • 功能:消除去噪早期阶段的无效计算,减少分布失配
    • 核心思路:当t≈T时,ᾱ_t≈0使分母√ᾱ_t病态,裁剪将x̂₀几乎所有坐标推到{-1,1}边界。将去噪起点从T降到t_δ=90、终点从0提高到t_0=20,跳过信号最弱的首尾步骤。同时降低噪声注入比例γ(从1.0降至0.2),使去噪过程从随机Langevin过程折叠为接近确定性概率流ODE,偏向高密度模式
    • 设计动机:机器人动作分布低维且简单,训练时需要随机性防止模式崩溃,但推理时不需要多样性——"总是选同一个可行解"在机器人场景中完全可接受。减少噪声注入同时减少了裁剪频率,直接改善采样质量
  2. 遗传去噪的群体选择机制(GDP核心)

    • 功能:在每个去噪步中从多条候选轨迹中筛选出最可能处于分布内的轨迹
    • 核心思路:维护P个并行去噪轨迹。每步去噪前:(a) 为每个样本计算适应度分数φ(衡量OoD程度);(b) 按适应度加权进行多项式采样,选出S个幸存者;(c) 复制幸存者填满群体至P;(d) 对所有样本执行标准DDPM去噪步。最终返回排名最高的样本x₀⁰
    • 设计动机:机器人动作空间低维(对比图像的2^16维),群体采样的内存开销可忽略不计(P=16时仅增加20%推理时间),而图像生成中这是不可行的。遗传选择本质上是在用并行探索来补偿减少噪声注入后损失的随机探索能力
  3. 双族适应度函数设计

    • 功能:量化每条去噪轨迹的OoD风险程度
    • 核心思路:提出两族适应度函数:φ_clip基于x̂₀与clip(x̂₀)的差值衡量裁剪量(裁剪越多=越OoD);φ_stein基于噪声估计器范数‖ε_θ(x_t,t)‖衡量样本到模式中心的距离(范数越大=离所有模式越远)。两者均通过温度参数T和缩放函数f调节选择压力
    • 设计动机:φ_clip直接对应裁剪缺陷的诊断结论;φ_stein则有双重理论支撑——既模拟了被降低的Langevin噪声注入效果,又作为OoD的直接度量(高噪声估计=样本远离训练分布支撑集)

损失函数 / 训练策略

  • 无需任何重训练:GDP直接应用于用标准DDPM损失(ε-prediction MSE损失)训练的现成检查点
  • 损失函数即标准DDPM目标:\(\mathcal{L}(\theta) = \mathbb{E}[\|\epsilon_\theta(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t, o) - \epsilon\|_2^2]\)
  • 训练配置:AdamW优化器,学习率10⁻⁴,权重衰减10⁻⁶,batch size 64,200 epochs,UNet 65M参数
  • GDP超参数网格(粗粒度):群体P∈{4,8,16,32},温度T∈{1,10,100,1000},噪声γ∈{1,0.6,0.3,0.2,0.1}

实验关键数据

主实验

Adroit Hand任务(4任务,100种子/配置,归一化成功率):

方法 步数 γ Hammer Relocate Pen Door
DDPM 100 1.0 0.68 0.69 0.88 0.87
DDPM 100 0.0 0.99 0.95 0.94 1.00
Shortcut 100 - 0.70 0.84 0.81 0.87
GDP 100 0.2 0.99 0.98 0.94 1.00
DDPM 5 1.0 0.91 0.91 0.85 1.00
GDP 5 0.2 1.00 0.99 0.91 1.00
DDPM 2 1.0 0.00 0.01 0.13 0.01
Shortcut 2 - 0.88 1.00 0.81 0.94
DDPM+Sched+γ 2 0.2 0.98 0.92 0.89 1.00
GDP 2 0.2 1.00 0.98 0.91 1.00
Shortcut 1 - 0.83 0.93 0.74 0.89

消融实验

2步推理下各组件增量贡献(Adroit Hand):

配置 Hammer Relocate Pen Door
DDPM原始(2步) 0.00 0.01 0.13 0.01
+调度优化(γ=1) 0.87 0.64 0.74 0.97
+调度优化(γ=0) 0.95 0.74 0.75 1.00
+调度+最优γ=0.2 0.98 0.92 0.89 1.00
+调度+γ+GDP 1.00 0.98 0.91 1.00

推理开销(RTX 3080,壁钟时间):

群体大小 NFE耗时(μs) 步骤耗时(μs) 开销比
1 (DDPM) 3800 200 1.00×
16 4000 800 1.20×
32 4500 1500 1.50×

关键发现

  • DDPM 2步完全崩溃(成功率0-13%),而GDP 2步在所有Adroit任务上达到91-100%,提升幅度惊人
  • 仅降低γ就贡献巨大:将Hammer从0.68→0.99(100步),且调度优化+γ调整已能实现2步98%(无需GDP)
  • GDP的核心价值在Relocate等难任务上:从调度+γ的0.92进一步提升到0.98
  • 图像生成规律在机器人领域反转:减少噪声注入在图像中产生怪异面孔,但在机器人中系统性提升性能
  • Robomimic上GDP增益有限:这些任务动作空间更低维(外在维度仅为Adroit的1/3),分布更简单,瓶颈在条件建模而非去噪质量
  • Shortcut模型虽支持1步采样,但性能显著低于GDP 2步,且需要额外训练
  • GDP使用γ=1时效果不佳——噪声使群体中的个体在后期步骤仍可在模式间"跳跃",加上幸存者选择反而导致模式崩溃

亮点与洞察

  • 视角独到:从裁剪操作这个被忽视的细节切入,揭示了扩散策略推理中一个根本性的分布失配问题,并用实验定量验证了裁剪频率与性能的负相关性
  • 领域特异性设计思维:明确指出图像生成→机器人的推理策略直接迁移是有害的,低维动作空间与高维像素空间的本质差异要求不同的探索-利用权衡
  • 首次将遗传算法应用于扩散模型采样:巧妙利用EAI的"低维但需快速"特点(与图像"高维但不急"形成互补)来设计加速方案
  • 即插即用的实用价值:GDP不修改模型、不需重训练、直接提升现成检查点性能,工程落地门槛极低
  • 实验规模充分:超过200万次评估,覆盖14个任务、6种动作horizon、18种推理预算,结论的统计可靠性高

局限与展望

  • 遗传算法过于简单:仅包含选择操作,无交叉或变异机制,图像去噪领域的交叉-变异算子可能带来进一步提升
  • Robomimic上增益有限:当瓶颈在条件建模(ε_θ的条件化能力)而非去噪过程时,GDP无能为力
  • 超参数调优依赖:群体大小P、温度T的选择虽粗粒度即可但仍需任务相关调优
  • 理论分析不完整:噪声缩放对学习分布支撑集的影响、GDP无穷群体极限行为等均未严格证明
  • 未在真实机器人上验证:所有实验均在模拟环境中进行,真实部署中的传感器噪声和延迟影响未知

相关工作与启发

  • 与加速方法形成互补:蒸馏/一致性模型/快捷流匹配需训练新模型,GDP则是纯推理时的即插即用方案,两者可潜在结合
  • 群体采样方法论可推广:遗传去噪的思路可扩展到其他需要结构化低维采样的扩散应用(如轨迹规划、运动生成)
  • OoD适应度函数的开放空间:φ_stein和φ_clip仅是两个起点,更精细的OoD检测器(如能量模型、密度估计)可能进一步提升选择质量
  • 探索-利用权衡的通用启示:训练时的多样性需求≠推理时的多样性需求,这一洞察对所有基于扩散的决策系统都有参考价值

评分

  • 创新性: ⭐⭐⭐⭐ — 裁剪缺陷分析视角新颖,遗传算法+扩散采样的结合属首创,领域特异性设计思维有方法论价值
  • 实用性: ⭐⭐⭐⭐⭐ — 无需重训练即可大幅加速现成检查点,2步达到100步性能,工程落地极为便利
  • 实验充分度: ⭐⭐⭐⭐⭐ — 14任务×6 horizon×18推理预算,超200万次评估,消融完整覆盖调度/噪声/GDP各组件
  • 理论深度: ⭐⭐⭐ — OoD分析直观有力但缺乏严格证明,遗传去噪的理论性质仅给出猜想,噪声缩放的理论影响留待未来

title: >- [论文解读] Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising description: >- [NeurIPS 2025][图像生成][扩散策略] 本文提出遗传扩散策略(GDP),通过分析裁剪导致的分布不匹配问题,结合降低噪声注入和基于群体选择的遗传算法去噪策略,使扩散策略仅需2步神经函数评估即可完成复杂操控任务。 tags: - NeurIPS 2025 - 图像生成 - 扩散策略 - 遗传去噪 - 机器人操控 - OoD问题 - 少步推理


Two-Steps Diffusion Policy for Robotic Manipulation via Genetic Denoising

会议: NeurIPS 2025
arXiv: 2510.21991
代码: 无
领域: 机器人操作, 扩散策略
关键词: 扩散策略, 遗传去噪, 机器人操控, OoD问题, 少步推理

一句话总结

本文提出遗传扩散策略(GDP),通过分析裁剪导致的分布不匹配问题,结合降低噪声注入和基于群体选择的遗传算法去噪策略,使扩散策略仅需2步神经函数评估即可完成复杂操控任务。

研究背景与动机

  • 扩散策略在机器人操控中取得了SOTA效果,但推理阶段需要多步序列去噪,计算昂贵
  • 现有加速方法(蒸馏、一致性模型、快捷流匹配)需要额外训练或架构修改
  • 核心发现:图像生成中的推理策略直接迁移到机器人控制是不合适的
  • 关键观察1:裁剪操作(clipping)在早期去噪步中将大部分坐标饱和到超立方体角点,造成训练-推理分布不匹配
  • 关键观察2:机器人动作分布本质上是低维的(内在维度仅~1,远低于图像的~25),使得减少噪声注入反而有益

方法详解

整体框架

  1. 分析裁剪导致的OoD问题
  2. 提出简单经验性解决方案:调整去噪时间表 + 降低噪声注入
  3. 提出遗传扩散策略(GDP):基于群体的选择机制

关键设计

裁剪问题分析: - 在t≈T时,ᾱ_t≈0使x̂₀估计不稳定,裁剪到[-1,1]后推理分布集中在超立方体角点 - 训练时的分布则分布在内部——造成分布失配 - 实验证实:裁剪频率与任务回报呈负相关

探索-利用权衡: - 训练时需要随机策略防止模式崩溃,但推理时不需要多样性 - 降低噪声注入γ → 向概率流ODE折叠,偏向更高密度模式(利用>探索) - 机器人任务容忍不完美策略(因为MDP中后续修正可能),所以减少噪声并非致命

遗传扩散策略(GDP,算法1): 1. 从P个高斯噪声样本出发 2. 每个去噪步前,计算每个样本的适应度分数 3. 按适应度分数进行多项式选择S个样本,复制填充群体 4. 对选中样本执行(可能扭曲的)DDPM去噪步 5. 返回最终样本

适应度函数(两族): - φ_stein:基于噪声估计器范数 ||ε_θ(x_t,t)||(高噪声=远离模式=OoD) - φ_clip:基于x̂₀与clip(x̂₀)的差异(裁剪量=OoD程度)

训练策略

  • 使用与官方Diffusion Policy相同的UNet架构(65M参数)
  • 不需要任何重新训练——GDP直接应用于预训练的DDPM检查点
  • 群体大小p∈{4,8,16,32},温度t∈{1,10,100,1000},噪声γ∈{1,0.6,0.3,0.2,0.1}

实验关键数据

主实验:Adroit Hand任务(100种子)

方法 步数 γ Hammer Relocate Pen Door
DDPM 100 1 0.68 0.69 0.88 0.87
DDPM 100 0 0.99 0.95 0.94 1.00
Shortcut 100 - 0.70 0.84 0.81 0.87
GDP 100 0.2 0.99 0.98 0.94 1.00
DDPM 5 1 0.91 0.91 0.85 1.00
GDP 5 0.2 1.00 0.99 0.91 1.00
Shortcut 2 - 0.88 1.00 0.81 0.94
DDPM+Schedule+Best γ 2 0.2 0.98 0.92 0.89 1.00
GDP 2 0.2 1.00 0.98 0.91 1.00

Robomimic任务(500种子)

任务 DDPM(γ=1) GDP(γ=0.2)
Lift-PH 1.00 1.00
Can-PH 0.97 1.00
Can-MH 0.95 1.00
Transport-PH 0.84 0.84

关键发现

  • 仅降低噪声注入(γ=0→0.2)就能在100步时将Hammer从0.68提升到0.99
  • GDP在2步推理下解决了所有Adroit任务(DDPM 2步几乎完全失败:0-2%成功率)
  • 图像生成的最佳实践不适用于机器人——减少噪声在图像生成中产生怪异面孔,但在机器人中提升性能
  • Robomimic上GDP的改进较小,表明这些任务的动作空间分布更规则

亮点与洞察

  • 首次将遗传算法应用于扩散模型采样加速
  • 对扩散策略裁剪问题的深入分析提供了重要的实践指导
  • 利用机器人动作空间低维性的独特性质——这是与图像生成的本质区别
  • 无需重新训练,直接即插即用提升现有检查点性能

局限与展望

  • GDP引入的群体采样增加了内存开销(虽然在低维动作空间中可忽略)
  • 适应度函数的温度和群体大小等超参数需要调优
  • 在更复杂/高维动作空间中的表现有待验证
  • EDM训练策略在不同action horizon下表现不稳定的原因未深入探讨

相关工作与启发

  • 与一致性模型、快捷流匹配等加速方法形成互补——前者需要训练,GDP无需训练
  • 对扩散模型在EAI中的使用提供了"领域特异性"设计的范例
  • OoD分析方法可推广到其他使用裁剪操作的扩散应用场景

评分

⭐⭐⭐⭐ — 问题分析深刻,方法实用且有效,实验充分(超200万次评估),OoD视角提供了重要洞察。

相关论文