DynaGuide: Steering Diffusion Policies with Active Dynamic Guidance¶
会议: NeurIPS 2025
arXiv: 2506.13922
代码: dynaguide.github.io
领域: 机器人学习 / 扩散策略引导
关键词: Diffusion Policy, Classifier Guidance, Latent Dynamics Model, DinoV2, Robot Manipulation
一句话总结¶
提出 DynaGuide,在推理时通过外部潜在动力学模型对预训练扩散策略施加 classifier guidance,无需修改策略权重即可引导机器人朝向任意正/负目标,在 CALVIN 仿真上平均成功率 70%,真实机器人达 80%。
研究背景与动机¶
-
领域现状:扩散策略(Diffusion Policy)已成为机器人操控的主流范式,能学习复杂多模态行为。然而训练完成后,如何在部署时针对特定场景灵活调整行为(即"策略导向")仍是开放问题。
-
现有痛点:
- 目标条件策略(Goal-Conditioned Policy)需要在训练时预见所有可能的引导分布,推理时遇到分布外目标会严重退化;
- 采样方法(如 GPC-Rank)从策略中多次采样并选最优,但依赖策略本身能生成满足目标的动作——对低概率行为无能为力;
-
微调策略代价高且可能破坏已学技能。
-
核心矛盾:如何在不修改预训练扩散策略权重的前提下,灵活地将其引导至任意目标(包括多目标和负目标)?
-
切入角度:借鉴图像生成领域的 classifier guidance——训练一个外部动力学模型充当"分类器",预测动作序列的未来视觉结果,并在去噪过程中用梯度信号直接修改动作。
-
核心 idea:外部动力学模型回答"执行此动作序列后未来会看到什么",然后通过梯度将预测未来拉近期望目标、远离负面目标,整个过程只修改推理时的去噪方向,策略权重完全不变。
方法详解¶
整体框架¶
DynaGuide 由两个独立模块组成,在推理时协作:
- 基础扩散策略 \(\pi_\theta(\mathbf{a}|o_t)\):预训练的 Diffusion Policy,通过 DDIM 去噪从高斯噪声生成动作序列,权重冻结不变;
- 引导模块:包含潜在动力学模型 \(h_\theta\) 和引导度量 \(\mathbf{d}\),在每个去噪步计算梯度 \(\nabla_{\mathbf{a}^k}\mathbf{d}\) 叠加到去噪信号上。
两者完全解耦,可随时更换引导模块而不影响基础策略。
关键设计¶
1. 潜在动力学模型
- 目标:给定当前观测 \(o_t\) 和动作序列 \(\mathbf{a}\),预测 \(H\) 步后的视觉状态 \(\hat{z}_{t+H}\)
- 编码器:使用冻结的 DinoV2 提取 patch embedding 作为视觉潜表示 \(z_t = \phi(o_t)\),语义丰富且训练稳定
- 预测器:Transformer 架构,输入 \((z_t, \mathbf{a})\),输出 \(\hat{z}_{t+H}\)
- 训练目标:简单的 MSE 回归 \(\mathcal{L} = \|\phi(o_{t+H}) - h_\theta(\phi(o_t), \mathbf{a})\|_2^2\)
- 数据增强:向训练动作添加与推理时相同调度器的高斯噪声,使模型对去噪过程中的含噪动作鲁棒
- 训练数据:仿真实验用 CALVIN 的 play data,真实实验用 UMI 开源数据+少量实验环境演示
2. 引导度量设计(正/负多目标)
引导条件 \(\mathcal{G} = \mathbf{g}^+ \cup \mathbf{g}^-\),其中 \(\mathbf{g}^+\) 是期望结果图像集合,\(\mathbf{g}^-\) 是需回避的结果。将所有引导条件投影到同一 DinoV2 空间计算距离:
- Log-Sum-Exp 聚合:作为 soft maximum,对多个引导条件取平滑最大值。当部分引导图像质量低(如机器人位置不对、场景不匹配)时,有用的信号不会被淹没。
- 正负分离:第一项拉近目标,第二项推远负目标,天然支持多目标和回避行为。
- 超参数 \(\sigma\):控制聚合的锐度,\(\sigma\) 越小越聚焦于最近的引导条件。
3. Classifier Guidance 注入去噪过程
在 DDIM 的每个去噪步 \(k\),将引导梯度叠加到噪声预测上:
- \(s\) 是引导强度——越大越严格遵循目标,但过大会使轨迹不平滑
- Stochastic Sampling 稳定化:每个去噪步重复 \(M\) 次 MCMC 采样,防止引导梯度将动作推出有效分布,允许使用更高的 \(s\) 值
- 梯度通过动力学模型 \(h_\theta\) 反传到动作空间,整个过程可微
训练策略¶
- 动力学模型:MSE 回归 + 动作噪声增强,用非结构化的机器人交互数据
- 引导过程:纯推理时计算,无需额外训练
- 基础策略:预训练冻结,DynaGuide 对任何 DDIM 扩散策略即插即用
实验关键数据¶
实验设置¶
在 CALVIN 仿真环境中测试 4 类场景,另有真实机器人实验。对比方法:
| 方法 | 说明 |
|---|---|
| Base Policy | 未引导的扩散策略 |
| Goal Conditioning (GC) | 以目标图像为条件训练的策略 |
| DynaGuide-Sampling (GPC) | 用同一动力学模型采样选最优动作 |
| Position Guidance (ITPS) | 用 3D 坐标引导扩散策略 |
主要结果¶
| 实验 | DynaGuide | GC | GPC | 说明 |
|---|---|---|---|---|
| ArticulatedParts(固定物体) | 70% | ~95% | 较低 | GC 在分布内表现最佳,DynaGuide 比 base policy 提升 8.7× |
| MovableObjects(随机物体) | 显著优于 GPC | 大幅下降 | ≈ base policy | 物体随机化导致 GC 分布外失效,GPC 采样方差过大 |
| UnderspecifiedObjectives(低质量引导) | 比 GC 高 5.4× | <10% | 中等 | 机器人状态随机化+场景不匹配时 DynaGuide 最鲁棒 |
| MultiObjectives(多目标+负目标) | 正目标 80% 成功 | 不适用 | 较低 | GPC 在回避负目标时失败率更高 |
| UnderrepresentedBehaviors(1% 数据) | 40% | - | 更低 | 仅 1% 训练数据的行为仍可通过引导激活 |
真实机器人实验¶
使用公开预训练 UMI 策略(杯子放置任务),无需修改策略权重:
| 场景 | 成功率 | 说明 |
|---|---|---|
| CupPreference(颜色偏好) | 72.5% | 引导选择特定颜色杯子 |
| HiddenCup(遮挡物体) | 80% | 引导找到被遮挡的红色杯子 |
| NovelBehavior(新行为) | 交互翻倍 | 引导触碰鼠标——训练数据中不存在的行为 |
关键发现¶
- 即插即用验证:在 off-the-shelf 真实策略上直接使用,无需任何微调
- 对低质量引导极其鲁棒:引导条件中机器人位姿、无关物体不匹配时,LSE 聚合仍能提取有效信号
- 主动引导 vs 被动采样:DynaGuide 直接修改去噪方向,能激活策略中低概率模式;GPC 只能从策略已有的采样中选择
- 数据效率:仅 1% 的目标行为训练数据,DynaGuide 仍达 40% 成功率
亮点与洞察¶
- 模块化分离是核心优势:策略和引导完全解耦,同一策略可搭配不同引导模块完成不同任务,实际部署效率极高
- DinoV2 作为通用状态空间:冻结视觉 backbone 提供稳定的语义比较空间,避免了端到端训练中表示漂移的问题
- Classifier Guidance 从图像生成迁移到机器人:证明扩散模型的引导理论在动作空间同样有效,为机器人策略的推理时定制开辟新路径
- 负目标引导的实用价值:真实部署中"不要做什么"和"要做什么"同样重要,DynaGuide 天然支持
局限性 / 可改进方向¶
- 需要额外训练动力学模型,增加了系统复杂度
- 引导条件目前仅支持视觉观测图像,不支持语言或运动学演示等更丰富的模态
- Stochastic Sampling(每步重复 \(M\) 次)增加推理延迟
- 只能指定"期望/不期望的结果",无法精细控制"如何"达到目标的过程
- 动力学模型的预测质量上限决定引导效果的天花板
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 classifier guidance 从图像生成迁移到机器人扩散策略,外部动力学模型充当分类器的设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 5 组仿真实验 + 3 组真实机器人实验,消融全面
- 写作质量: ⭐⭐⭐⭐ 方法推导清晰,图表信息量大
- 实用价值: ⭐⭐⭐⭐ 即插即用特性对实际机器人部署有直接意义