跳转至

Image Generation as a Visual Planner for Robotic Manipulation

会议: CVPR 2026 arXiv: 2512.00532 代码: GitHub 领域: 图像生成 / 机器人操作 关键词: 视觉规划, 机器人操作, 扩散模型, 网格图像生成, LoRA

一句话总结

将预训练图像生成模型(DiT)通过 LoRA 微调适配为机器人操作的视觉规划器,以 3×3 网格图像形式生成时序连贯的操作序列,支持文本条件和轨迹条件两种控制模式。

研究背景与动机

生成真实的机器人操作视频是实现感知-规划-动作统一的关键步骤。现有视频扩散模型需要大规模领域特定数据集,泛化能力有限且计算成本高。同时,大规模图像生成模型(如 FLUX.1-dev)在语言-图像对上训练后展现出强组合生成能力——能在单张网格布局中排列多个语义一致的子图像,隐式地呈现出类似短视频的时序过渡。

本文的核心假设是:预训练图像生成器已经编码了可迁移的时序先验,通过轻量级 LoRA 微调即可成为机器人操作的视觉规划器,无需设计专门的视频架构。

方法详解

整体框架

框架将机器人操作视频转化为 \(3 \times 3\) 网格图像问题。从每个操作视频中均匀采样 9 帧,按蛇形排列组成网格图像(\(1 \to 2 \to 3\), \(6 \leftarrow 5 \leftarrow 4\), \(7 \to 8 \to 9\)),训练时仅保留左上角第一帧作为条件输入(其余遮蔽为黑色),模型学习预测完整的 9 帧网格。基于 FLUX.1-dev(DiT 架构),通过 LoRA 适配器进行参数高效微调。

关键设计

  1. 蛇形网格排列 (Serpentine Grid Layout):9 帧按蛇形顺序排列在 \(3 \times 3\) 网格中,使时序相邻帧在空间上也相邻。这一设计利用了 Transformer 局部注意力对短程时序依赖的建模能力,无需显式时序建模即可实现帧间一致性。网格构造为:
\[\mathbf{D} = \begin{bmatrix} D^{\text{img}_1} & D^{\text{img}_2} & D^{\text{img}_3} \\ D^{\text{img}_6} & D^{\text{img}_5} & D^{\text{img}_4} \\ D^{\text{img}_7} & D^{\text{img}_8} & D^{\text{img}_9} \end{bmatrix}\]

设计动机是确保任意两个时序相邻帧在网格中也物理相邻,便于局部注意力捕获连续动作。

  1. 双模态条件控制

  2. 文本条件生成:给定语言指令(如 "pick up the red cup")和首帧图像,通过 CLIP + T5 编码文本嵌入 \(c_{\text{text}} = \{e_{\text{clip}}, E_{\text{t5}}\}\),经 cross-attention 注入 DiT。侧重语义理解——模型需理解高层语义并转化为合理动作序列。

  3. 轨迹条件生成:在首帧上渲染 2D 末端执行器轨迹(红→蓝表示时间进程),叠加后的图像替代首帧作为条件输入 \(\tilde{\mathbf{D}}^{\tau}\)。侧重空间精确控制——模型沿提供的轨迹路径生成动作。

  4. LoRA 参数高效适配:对 DiT 中 self-attention 的 query/value 投影和前馈层应用 LoRA(低秩 \(r \ll d\)),仅训练 \(O(rd)\) 参数而非 \(O(d^2)\),实现从通用图像生成到机器人视频领域的高效迁移,不增加推理延迟。

损失函数 / 训练策略

使用潜空间 MSE 损失:\(\mathcal{L}_{\text{lat}} = \|\mathcal{E}(\mathbf{D}_{gt}) - \mathcal{E}(\hat{\mathbf{D}})\|_2^2\),其中 \(\mathcal{E}\) 为 VAE 编码器。模型进行单次网格生成(非自回归逐帧),一次性预测完整 9 帧网格,利用图像生成模型的组合先验进行隐式时序推理。

实验关键数据

主实验

数据集 方法 FVD↓ SSIM↑ MSE↓ Success↑
JacoPlay Text 490.7 0.797 0.00695 80.6%
JacoPlay Traj 503.37 0.802 0.00680 74.0%
BridgeV2 Text 644.2 0.733 0.0135 73.2%
BridgeV2 Traj 693.2 0.726 0.0152 70.9%
RT-1 Text 698.0 0.727 0.0118 72.4%
RT-1 Traj 688.1 0.731 0.0117 81.7%

消融实验(BridgeV2)

配置 FVD↓ SSIM↑ Success↑ 说明
Full (Traj) 644.2 0.733 73.2% 完整模型
Full (Text) 693.2 0.726 70.9% 完整模型
w/o LoRA 4377.1 0.064 0% 冻结骨干完全失败
w/o Prompt Template 843.4 0.754 2.5% 语义引导严重退化
w/o Trajectory Overlay 720.0 0.749 3.9% 空间控制丧失

关键发现

  • LoRA 是关键组件:不使用 LoRA 时 FVD 从 644 飙升至 4377,成功率降为 0%
  • 文本模板对语义理解至关重要:移除后成功率从 73.2% 降至 2.5%
  • 文本条件在 JacoPlay/BridgeV2 上更优(语义跟随),轨迹条件在 RT-1 上更优(空间跟随)
  • 两种条件模式互补:文本擅长语义推理,轨迹擅长几何精度

亮点与洞察

  1. 新颖视角:首次系统验证预训练图像生成模型可作为机器人视觉规划器——仅通过 LoRA 微调即可将图像生成器转化为视频合成器
  2. 极端简洁的时序建模:完全不使用时序模块,仅通过网格布局+局部注意力实现帧间一致性
  3. 成本效益:无需大规模视频数据集或专用视频架构,利用预训练图像生成器的组合先验,LoRA 微调即可

局限性 / 可改进方向

  1. 网格拼接块之间偶有色调/纹理不一致,拼接边界可能出现轻微错位
  2. 9 帧的序列长度较短,难以覆盖长时间操作任务
  3. 成功率基于视觉判断,未与实际机器人执行闭环验证
  4. 仅在 3 个数据集上测试,未验证跨域泛化能力(如从 JacoPlay 到 BridgeV2)
  5. 轨迹条件需预先提供 2D 轨迹,限制了自主规划的实用性

相关工作与启发

  • RIGVid:用 AI 生成的任务视频估计 6-DoF 轨迹在真实机器人上执行
  • Gen2Act:生成人类执行视频并条件化策略以泛化到新场景
  • ControlNet:空间条件分支注入到冻结的文本-图像模型中,启发了本文的轨迹条件设计
  • 启发:图像生成模型的组合先验可能适用于更多规划任务——如导航路径规划、装配序列规划等

评分

  • 新颖性: ⭐⭐⭐⭐ 将图像生成器重新定位为视觉规划器的idea新颖且具启发性
  • 实验充分度: ⭐⭐⭐ 3个数据集+消融完整,但缺乏与视频生成baseline的直接对比和真机验证
  • 写作质量: ⭐⭐⭐ 结构清晰但数学描述略冗余,部分内容重复
  • 价值: ⭐⭐⭐ 提供了一个有趣的研究方向,但实用价值受限于缺少闭环执行验证