跳转至

DAWN: Pixel Motion Diffusion is What We Need for Robot Control

会议: CVPR 2026
arXiv: 2509.22652
代码: https://eronguyen.github.io/DAWN/ (有)
领域: 多模态VLM / 机器人控制
关键词: 像素运动扩散, 视觉语言动作, 机器人操控, 两阶段扩散, 光流表示

一句话总结

提出 DAWN,一个两阶段全扩散的视觉语言动作框架——Motion Director(潜扩散模型)生成稠密像素运动场作为可解释的中间表示,Action Expert(扩散 Transformer 策略)将像素运动转换为可执行机器人动作;在 CALVIN 基准上取得 SOTA(平均长度 4.00),并在真实世界单臂/双臂操控中展现强泛化能力。

背景与动机

VLA (Vision-Language-Action) 模型虽已取得显著成果,但大多直接从视觉观测映射到动作,缺乏对运动意图的显式建模。一些方法通过视频预测作为中间步骤,但在 RGB 空间操作增加了学习难度。像素轨迹作为运动表示已被证明有效,但现有方法使用稀疏像素追踪或间接地从生成视频中提取运动——不如直接预测稠密像素运动简洁高效。

核心问题

如何设计一个结构化、可解释且高效的中间运动表示来桥接高层语言意图和低层机器人动作?

方法详解

整体框架

两阶段扩散架构: 1. Motion Director:LDM (Latent Diffusion Model),条件为当前观测 + 语言指令,输出稠密像素运动场 2. Action Expert:Diffusion Transformer 策略,条件为像素运动 + 观测 + 语言 + 机器人状态,输出动作序列

关键设计

  1. Motion Director(高层运动规划): 基于预训练 Stable Diffusion 的 U-Net 架构,将当前帧 VAE 编码后与噪声拼接作为输入,通过交叉注意力注入语言嵌入(CLIP 文本编码)、夹爪视角嵌入(CLIP 视觉编码)和时间偏移量 k。输出解码后为 3 通道像素运动图 \(F'_{t,k} = [u, v, (u+v)/2]\)。训练时用 RAFT 光流模型生成 ground truth。只更新 U-Net 参数,冻结所有编码器和 VAE。

  2. Action Expert(低层动作执行): Transformer 架构的扩散策略模型,四个编码器分别处理:像素运动(DINOv3 ConvNeXt-S)、视觉观测、语言指令(T5-small)、机器人状态(2层 MLP)。所有条件 token 拼接后通过交叉注意力注入去噪 Transformer,从高斯噪声迭代去噪生成动作序列。

  3. 像素运动作为中间表示的优势:

  4. 比 RGB 视频预测更结构化——直接编码运动方向和幅度
  5. 比稀疏像素追踪更信息丰富——稠密覆盖全场景
  6. 可解释——运动场可直接可视化为"模型打算让场景如何运动"
  7. 与具身无关——像素运动不依赖特定机器人关节配置

  8. 可并行训练的模块化设计: Motion Director 和 Action Expert 可并行训练(用 RAFT 光流作为 GT),之后可选择性地在 Motion Director 的实际输出上微调 Action Expert。

损失函数 / 训练策略

  • 两个模型都用 MSE 噪声估计损失
  • Motion Director:100k 步,batch=16/GPU,4×A6000
  • Action Expert:10k 步,batch=64/GPU
  • AdamW lr=1e-4,混合精度训练
  • 推理时 Motion Director 25 步扩散

实验关键数据

CALVIN ABC→D(无外部数据)

方法 1st ↑ 2nd ↑ 3rd ↑ 4th ↑ 5th ↑ Avg Len ↑
Diffusion Policy 0.40 0.12 0.03 0.01 0.00 0.56
MoDE 0.92 0.79 0.67 0.56 0.45 3.39
Seer-Large 0.96 0.89 0.80 0.71 0.60 3.96
DAWN 0.97 0.89 0.82 0.72 0.60 4.00

MetaWorld (11 任务)

方法 平均成功率 ↑
LTM 57.7%
ATM 52.0%
DAWN 65.4%

真实世界单臂操控(xArm7, 1000 episodes, 6种物品提举放置)

方法 整体成功率 推理时延
Enhanced DP 较低 112.77ms
\(\pi_0\) 中等(常抓错物品) 571.89ms
VPP 190.55ms
DAWN 最高 319.82ms

DAWN 在几乎所有物品类别上成功率最高,且错误抓取率极低。

消融实验要点

  • 像素运动 vs RGB 目标:像素运动 (4.00) >> RGB 目标图 (3.21) >> 无中间表示 (2.78)
  • 预训练 vs 从头训练:预训练 LDM 的像素运动 (4.00) > 从头训练 (3.42)——预训练图像生成模型对像素运动预测有显著帮助
  • 夹爪视角:移除夹爪视角后降至 3.74(缺少遮挡和手-物交互信息)
  • 扩散步数:2 步 (3.88) → 25 步 (4.00) → 40 步 (3.95),25 步最优
  • 双臂操控:像素运动同样降低双臂场景的动作预测 MSE

亮点

  • 稠密像素运动作为通用运动表示:比 RGB 预测更简洁,比稀疏轨迹更丰富,比关键点更通用
  • 首次将预训练 LDM adapted 用于稠密像素运动生成:充分利用了大规模图像生成预训练的能力
  • 模块化可解释:Motion Director 的输出可直接可视化,提供对模型决策的透明理解
  • 数据高效:仅 1000 真实世界 episodes 即可实现强泛化,体现了结构化中间表示的优势
  • 双臂扩展:在 Galaxea R1-Lite 双臂平台上验证了方法的通用性

局限性 / 可改进方向

  • 推理延迟相对较高(319ms vs Enhanced DP 的 113ms),因为需要两阶段扩散
  • Motion Director 的光流 GT 依赖 RAFT,在无纹理或快速运动场景可能不准确
  • 使用外部数据(DROID)时性能优于无外部数据但未达到 VPP 和 DreamVLA 的最高水平
  • 仅支持表面操控任务,未验证接触丰富的任务(如装配)

与相关工作的对比

  • vs VLA (OpenVLA, RT-2, \(\pi_0\)): VLA 端到端映射,缺乏可解释的中间表示;DAWN 通过像素运动提供透明的运动规划
  • vs Gen2Act (视频预测→运动提取): Gen2Act 先生成 RGB 视频再追踪像素提取运动,两步链式误差;DAWN 直接在潜空间预测运动
  • vs VPP (视频扩散特征): VPP 用视频扩散模型提取预测性特征但不显式生成运动;DAWN 的运动场更可解释且在小数据场景更有优势

启发与关联

  • 像素运动作为机器人控制的通用中间表示,可以与 VLM 的视觉推理能力结合——让 VLM 理解和生成运动意图
  • 预训练图像扩散模型成功适配到像素运动预测,提示了更多非 RGB 输出的 LDM 应用可能
  • 模块化设计允许独立升级高层和低层组件,适合快速迭代

评分

  • 新颖性: ⭐⭐⭐⭐ 稠密像素运动作为统一中间表示 + 双扩散架构是有效的新设计
  • 实验充分度: ⭐⭐⭐⭐⭐ CALVIN + MetaWorld + 真实单臂 + 真实双臂,消融完整
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 为机器人学习提供了一个简洁有效的结构化中间表示方案