DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control¶

日期: 2026-03-11
arXiv: 2603.10448
代码: dit4dit.github.io
领域: 机器人 / 视频生成
关键词: Video-Action Model, Diffusion Transformer, flow matching, robot manipulation, video generation

一句话总结¶

提出 DiT4DiT，将视频扩散 Transformer 与动作扩散 Transformer 级联，通过双 flow-matching 目标联合训练，从视频去噪中间特征中提取时序条件来预测机器人动作，在 LIBERO (98.6%) 和 RoboCasa-GR1 (50.8%) 上达到 SOTA，样本效率提升 10 倍。

研究背景与动机¶

领域现状: Vision-Language-Action (VLA) 模型（RT-2、OpenVLA、π0 等）是机器人通用控制的主流范式，但其 backbone 主要从静态图文数据预训练而来，时空动态和物理交互全靠有限的机器人数据学习。
现有痛点: 静态图文预训练缺乏物理动态理解——VLA 要学会"物体怎么动"全靠下游微调数据，导致数据需求量大、长程任务表现差。视频生成模型（Cosmos、Wan 等）天然编码了丰富的时空结构和隐式物理，但在机器人中的潜力尚未充分发挥。
核心矛盾: 现有利用视频模型的方法多为多阶段 pipeline（先生成视频再训逆动力学），未能端到端联合优化视频生成和动作预测。
切入角度: 视频生成不仅是数据增强工具，更可以作为策略学习的有效代理目标 (proxy objective)——直接验证了视频生成比语义 grounding 和 FLARE-style latent 对齐收敛更快、数据效率更高。
核心 idea: 用一个 Video DiT 预测未来帧动态，从其去噪过程中提取中间隐藏特征，作为 Action DiT 的时间锚定条件，双模块通过 dual flow-matching 联合训练。

方法详解¶

整体框架¶

输入: 当前观测帧 $\mathbf{o}_t$ + 语言指令 $l$ → Video DiT 预测未来帧去噪 → 提取中间隐藏特征 $\mathbf{h}_t^{\tau_f}$ → Action DiT 以此为条件预测动作轨迹 $\mathbf{a}_t$。两个 DiT 通过联合损失端到端训练。

关键设计¶

Video DiT（视频骨干）:
- 基于 Cosmos-Predict2.5-2B 初始化
- 用因果视频 VAE 将像素压缩到潜空间 $\mathbf{z}_t^0$
- 关键创新：不用最终去噪结果，而是通过 hook 机制在固定时间步 $\tau_f$ 提取中间层（第 18 层）的隐藏激活作为特征
- 设计动机：最终层过度专化于像素重建，丢失了控制相关的抽象表征；中间层在语义和物理理解间取得最佳平衡
Action DiT（动作头）:
- 基于 GR00T-N1 的动作扩散 Transformer
- 用 AdaLN 注入扩散时间步信息，用 cross-attention 关注视频特征 $\mathbf{h}_t^{\tau_f}$
- 输入: 本体感知状态 + 噪声动作轨迹 + 可学习 future tokens
- 通过迭代去噪生成精确动作序列
非对称三时间步方案 (Tri-timestep):
- $\tau_v \sim \mathcal{U}[0,1]$：视频去噪训练用均匀采样，覆盖全噪声级别
- $\tau_f$：特征提取用固定时间步，确保动作模块接收稳定输入
- $\tau_a \sim \text{Beta}(\alpha, \beta)$：动作去噪用 Beta 分布采样，集中训练关键控制阶段
- 三个时间步完全解耦，各自优化最适合自身任务的分布

损失函数 / 训练策略¶

联合 flow-matching 损失： $$\mathcal{L}^{\text{total}} = \mathcal{L}_{\text{action}} + \lambda \cdot \mathcal{L}_{\text{video}}$$

视频损失：预测速度场 $v_\theta^{\text{video}}$，目标为 $z - \mathbf{z}_{t+1}^0$
动作损失：预测速度场 $v_\phi^{\text{action}}$，条件于视频隐特征，带 action mask
文本编码器和视频 VAE 冻结，仅训练两个 DiT 模块

实验关键数据¶

主实验 — LIBERO 基准¶

方法	Spatial	Object	Goal	Long	平均
π0.5	98.8	98.2	98.0	92.4	96.9
CogVLA	98.6	98.8	96.6	95.4	97.4
Qwen3DiT	98.0	98.8	96.0	93.6	96.6
DiT4DiT	98.4	99.6	98.6	97.6	98.6

RoboCasa-GR1（24 任务平均）¶

方法	平均成功率
GR00T-N1.5	41.8%
GR00T-N1.6	40.8%
Qwen3DiT	36.2%
DiT4DiT	50.8%

消融实验¶

配置	关键发现
特征提取层	第 18 层最优；早期层（2-8）太底层，最终层（24-28）过度专化于像素重建
去噪步数	单步最优！多步去噪反而严格单调下降——联合训练让第一步就编码了动作语义
联合 vs 解耦训练	联合训练 silhouette score 翻倍（0.09→0.17），特征呈现清晰时序流动

关键发现¶

视频生成是最强代理任务: 比 grounding 和 FLARE-style latent 对齐收敛快 7 倍、数据效率高 10 倍
LIBERO-Long 提升巨大: 长程任务从 93.6%→97.6%，说明视频动态建模对多阶段任务特别有效
真实世界 G1 部署: Arrange Flower 75% vs GR00T-N1.5 25%，精细操作优势明显
零样本泛化: 未见物体、类别变化、数量变化下均保持高成功率，Qwen3DiT 基线完全崩溃

亮点与洞察¶

"单步去噪即最优"发现: 联合训练范式迫使视频特征在第一步就编码动作语义，完全绕过多步视频生成的计算瓶颈——推理时只需一次 forward 提取特征
视频生成作为 scaling proxy: 系统性验证了视频预测比语义 grounding 更适合作为机器人策略的自监督预训练目标
三时间步解耦: 视频生成、特征提取、动作生成各用独立时间步分布——简洁优雅地解决了生成与控制的需求冲突

局限性 / 可改进方向¶

推理频率 6Hz，慢于 GR00T-N1.5 的 13Hz，高频任务可能受限
仅用单目自视角相机，多视角可能进一步提升空间推理能力
RoboCasa 上 50.8% 绝对成功率仍不够高，说明 24 任务泛化仍有很大提升空间
预训练数据仅约 GR00T 的 15%，更大规模数据下的 scaling 行为值得探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双 DiT 架构 + 三时间步方案设计精巧，端到端联合训练是关键创新
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实世界，多基准、消融、泛化、效率分析全面
写作质量: ⭐⭐⭐⭐ 结构清晰，动机和验证逻辑链完整
价值: ⭐⭐⭐⭐⭐ 为机器人策略学习指明了"视频生成 backbone"这一极有前景的方向