DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control¶
日期: 2026-03-11
arXiv: 2603.10448
代码: dit4dit.github.io
领域: 机器人 / 视频生成
关键词: Video-Action Model, Diffusion Transformer, flow matching, robot manipulation, video generation
一句话总结¶
提出 DiT4DiT,将视频扩散 Transformer 与动作扩散 Transformer 级联,通过双 flow-matching 目标联合训练,从视频去噪中间特征中提取时序条件来预测机器人动作,在 LIBERO (98.6%) 和 RoboCasa-GR1 (50.8%) 上达到 SOTA,样本效率提升 10 倍。
研究背景与动机¶
-
领域现状: Vision-Language-Action (VLA) 模型(RT-2、OpenVLA、π0 等)是机器人通用控制的主流范式,但其 backbone 主要从静态图文数据预训练而来,时空动态和物理交互全靠有限的机器人数据学习。
-
现有痛点: 静态图文预训练缺乏物理动态理解——VLA 要学会"物体怎么动"全靠下游微调数据,导致数据需求量大、长程任务表现差。视频生成模型(Cosmos、Wan 等)天然编码了丰富的时空结构和隐式物理,但在机器人中的潜力尚未充分发挥。
-
核心矛盾: 现有利用视频模型的方法多为多阶段 pipeline(先生成视频再训逆动力学),未能端到端联合优化视频生成和动作预测。
-
切入角度: 视频生成不仅是数据增强工具,更可以作为策略学习的有效代理目标 (proxy objective)——直接验证了视频生成比语义 grounding 和 FLARE-style latent 对齐收敛更快、数据效率更高。
-
核心 idea: 用一个 Video DiT 预测未来帧动态,从其去噪过程中提取中间隐藏特征,作为 Action DiT 的时间锚定条件,双模块通过 dual flow-matching 联合训练。
方法详解¶
整体框架¶
输入: 当前观测帧 \(\mathbf{o}_t\) + 语言指令 \(l\) → Video DiT 预测未来帧去噪 → 提取中间隐藏特征 \(\mathbf{h}_t^{\tau_f}\) → Action DiT 以此为条件预测动作轨迹 \(\mathbf{a}_t\)。两个 DiT 通过联合损失端到端训练。
关键设计¶
-
Video DiT(视频骨干):
- 基于 Cosmos-Predict2.5-2B 初始化
- 用因果视频 VAE 将像素压缩到潜空间 \(\mathbf{z}_t^0\)
- 关键创新:不用最终去噪结果,而是通过 hook 机制在固定时间步 \(\tau_f\) 提取中间层(第 18 层)的隐藏激活作为特征
- 设计动机:最终层过度专化于像素重建,丢失了控制相关的抽象表征;中间层在语义和物理理解间取得最佳平衡
-
Action DiT(动作头):
- 基于 GR00T-N1 的动作扩散 Transformer
- 用 AdaLN 注入扩散时间步信息,用 cross-attention 关注视频特征 \(\mathbf{h}_t^{\tau_f}\)
- 输入: 本体感知状态 + 噪声动作轨迹 + 可学习 future tokens
- 通过迭代去噪生成精确动作序列
-
非对称三时间步方案 (Tri-timestep):
- \(\tau_v \sim \mathcal{U}[0,1]\):视频去噪训练用均匀采样,覆盖全噪声级别
- \(\tau_f\):特征提取用固定时间步,确保动作模块接收稳定输入
- \(\tau_a \sim \text{Beta}(\alpha, \beta)\):动作去噪用 Beta 分布采样,集中训练关键控制阶段
- 三个时间步完全解耦,各自优化最适合自身任务的分布
损失函数 / 训练策略¶
联合 flow-matching 损失: $\(\mathcal{L}^{\text{total}} = \mathcal{L}_{\text{action}} + \lambda \cdot \mathcal{L}_{\text{video}}\)$
- 视频损失:预测速度场 \(v_\theta^{\text{video}}\),目标为 \(z - \mathbf{z}_{t+1}^0\)
- 动作损失:预测速度场 \(v_\phi^{\text{action}}\),条件于视频隐特征,带 action mask
- 文本编码器和视频 VAE 冻结,仅训练两个 DiT 模块
实验关键数据¶
主实验 — LIBERO 基准¶
| 方法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| π0.5 | 98.8 | 98.2 | 98.0 | 92.4 | 96.9 |
| CogVLA | 98.6 | 98.8 | 96.6 | 95.4 | 97.4 |
| Qwen3DiT | 98.0 | 98.8 | 96.0 | 93.6 | 96.6 |
| DiT4DiT | 98.4 | 99.6 | 98.6 | 97.6 | 98.6 |
RoboCasa-GR1(24 任务平均)¶
| 方法 | 平均成功率 |
|---|---|
| GR00T-N1.5 | 41.8% |
| GR00T-N1.6 | 40.8% |
| Qwen3DiT | 36.2% |
| DiT4DiT | 50.8% |
消融实验¶
| 配置 | 关键发现 |
|---|---|
| 特征提取层 | 第 18 层最优;早期层(2-8)太底层,最终层(24-28)过度专化于像素重建 |
| 去噪步数 | 单步最优!多步去噪反而严格单调下降——联合训练让第一步就编码了动作语义 |
| 联合 vs 解耦训练 | 联合训练 silhouette score 翻倍(0.09→0.17),特征呈现清晰时序流动 |
关键发现¶
- 视频生成是最强代理任务: 比 grounding 和 FLARE-style latent 对齐收敛快 7 倍、数据效率高 10 倍
- LIBERO-Long 提升巨大: 长程任务从 93.6%→97.6%,说明视频动态建模对多阶段任务特别有效
- 真实世界 G1 部署: Arrange Flower 75% vs GR00T-N1.5 25%,精细操作优势明显
- 零样本泛化: 未见物体、类别变化、数量变化下均保持高成功率,Qwen3DiT 基线完全崩溃
亮点与洞察¶
- "单步去噪即最优"发现: 联合训练范式迫使视频特征在第一步就编码动作语义,完全绕过多步视频生成的计算瓶颈——推理时只需一次 forward 提取特征
- 视频生成作为 scaling proxy: 系统性验证了视频预测比语义 grounding 更适合作为机器人策略的自监督预训练目标
- 三时间步解耦: 视频生成、特征提取、动作生成各用独立时间步分布——简洁优雅地解决了生成与控制的需求冲突
局限性 / 可改进方向¶
- 推理频率 6Hz,慢于 GR00T-N1.5 的 13Hz,高频任务可能受限
- 仅用单目自视角相机,多视角可能进一步提升空间推理能力
- RoboCasa 上 50.8% 绝对成功率仍不够高,说明 24 任务泛化仍有很大提升空间
- 预训练数据仅约 GR00T 的 15%,更大规模数据下的 scaling 行为值得探索
相关工作与启发¶
- vs GR00T-N1.5/N1.6: GR00T 用 VLM backbone + grounding;DiT4DiT 用视频 DiT,在更少数据量下大幅超越
- vs π0/π0.5: π系列用 VLM autoregressive backbone;DiT4DiT 用 bidirectional DiT,LIBERO-Long 上优势明显
- vs mimic-video: mimic-video 也用视频 backbone + 部分去噪条件,但是 pipeline 解耦训练;DiT4DiT 端到端联合训练效果更好
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 双 DiT 架构 + 三时间步方案设计精巧,端到端联合训练是关键创新
- 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实世界,多基准、消融、泛化、效率分析全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机和验证逻辑链完整
- 价值: ⭐⭐⭐⭐⭐ 为机器人策略学习指明了"视频生成 backbone"这一极有前景的方向