Image Generation as a Visual Planner for Robotic Manipulation¶
会议: CVPR 2026 arXiv: 2512.00532 代码: GitHub 领域: 图像生成 / 机器人操作 关键词: 视觉规划, 机器人操作, 扩散模型, 网格图像生成, LoRA
一句话总结¶
将预训练图像生成模型(DiT)通过 LoRA 微调适配为机器人操作的视觉规划器,以 3×3 网格图像形式生成时序连贯的操作序列,支持文本条件和轨迹条件两种控制模式。
研究背景与动机¶
生成真实的机器人操作视频是实现感知-规划-动作统一的关键步骤。现有视频扩散模型需要大规模领域特定数据集,泛化能力有限且计算成本高。同时,大规模图像生成模型(如 FLUX.1-dev)在语言-图像对上训练后展现出强组合生成能力——能在单张网格布局中排列多个语义一致的子图像,隐式地呈现出类似短视频的时序过渡。
本文的核心假设是:预训练图像生成器已经编码了可迁移的时序先验,通过轻量级 LoRA 微调即可成为机器人操作的视觉规划器,无需设计专门的视频架构。
方法详解¶
整体框架¶
框架将机器人操作视频转化为 \(3 \times 3\) 网格图像问题。从每个操作视频中均匀采样 9 帧,按蛇形排列组成网格图像(\(1 \to 2 \to 3\), \(6 \leftarrow 5 \leftarrow 4\), \(7 \to 8 \to 9\)),训练时仅保留左上角第一帧作为条件输入(其余遮蔽为黑色),模型学习预测完整的 9 帧网格。基于 FLUX.1-dev(DiT 架构),通过 LoRA 适配器进行参数高效微调。
关键设计¶
- 蛇形网格排列 (Serpentine Grid Layout):9 帧按蛇形顺序排列在 \(3 \times 3\) 网格中,使时序相邻帧在空间上也相邻。这一设计利用了 Transformer 局部注意力对短程时序依赖的建模能力,无需显式时序建模即可实现帧间一致性。网格构造为:
设计动机是确保任意两个时序相邻帧在网格中也物理相邻,便于局部注意力捕获连续动作。
-
双模态条件控制:
-
文本条件生成:给定语言指令(如 "pick up the red cup")和首帧图像,通过 CLIP + T5 编码文本嵌入 \(c_{\text{text}} = \{e_{\text{clip}}, E_{\text{t5}}\}\),经 cross-attention 注入 DiT。侧重语义理解——模型需理解高层语义并转化为合理动作序列。
-
轨迹条件生成:在首帧上渲染 2D 末端执行器轨迹(红→蓝表示时间进程),叠加后的图像替代首帧作为条件输入 \(\tilde{\mathbf{D}}^{\tau}\)。侧重空间精确控制——模型沿提供的轨迹路径生成动作。
-
LoRA 参数高效适配:对 DiT 中 self-attention 的 query/value 投影和前馈层应用 LoRA(低秩 \(r \ll d\)),仅训练 \(O(rd)\) 参数而非 \(O(d^2)\),实现从通用图像生成到机器人视频领域的高效迁移,不增加推理延迟。
损失函数 / 训练策略¶
使用潜空间 MSE 损失:\(\mathcal{L}_{\text{lat}} = \|\mathcal{E}(\mathbf{D}_{gt}) - \mathcal{E}(\hat{\mathbf{D}})\|_2^2\),其中 \(\mathcal{E}\) 为 VAE 编码器。模型进行单次网格生成(非自回归逐帧),一次性预测完整 9 帧网格,利用图像生成模型的组合先验进行隐式时序推理。
实验关键数据¶
主实验¶
| 数据集 | 方法 | FVD↓ | SSIM↑ | MSE↓ | Success↑ |
|---|---|---|---|---|---|
| JacoPlay | Text | 490.7 | 0.797 | 0.00695 | 80.6% |
| JacoPlay | Traj | 503.37 | 0.802 | 0.00680 | 74.0% |
| BridgeV2 | Text | 644.2 | 0.733 | 0.0135 | 73.2% |
| BridgeV2 | Traj | 693.2 | 0.726 | 0.0152 | 70.9% |
| RT-1 | Text | 698.0 | 0.727 | 0.0118 | 72.4% |
| RT-1 | Traj | 688.1 | 0.731 | 0.0117 | 81.7% |
消融实验(BridgeV2)¶
| 配置 | FVD↓ | SSIM↑ | Success↑ | 说明 |
|---|---|---|---|---|
| Full (Traj) | 644.2 | 0.733 | 73.2% | 完整模型 |
| Full (Text) | 693.2 | 0.726 | 70.9% | 完整模型 |
| w/o LoRA | 4377.1 | 0.064 | 0% | 冻结骨干完全失败 |
| w/o Prompt Template | 843.4 | 0.754 | 2.5% | 语义引导严重退化 |
| w/o Trajectory Overlay | 720.0 | 0.749 | 3.9% | 空间控制丧失 |
关键发现¶
- LoRA 是关键组件:不使用 LoRA 时 FVD 从 644 飙升至 4377,成功率降为 0%
- 文本模板对语义理解至关重要:移除后成功率从 73.2% 降至 2.5%
- 文本条件在 JacoPlay/BridgeV2 上更优(语义跟随),轨迹条件在 RT-1 上更优(空间跟随)
- 两种条件模式互补:文本擅长语义推理,轨迹擅长几何精度
亮点与洞察¶
- 新颖视角:首次系统验证预训练图像生成模型可作为机器人视觉规划器——仅通过 LoRA 微调即可将图像生成器转化为视频合成器
- 极端简洁的时序建模:完全不使用时序模块,仅通过网格布局+局部注意力实现帧间一致性
- 成本效益:无需大规模视频数据集或专用视频架构,利用预训练图像生成器的组合先验,LoRA 微调即可
局限性 / 可改进方向¶
- 网格拼接块之间偶有色调/纹理不一致,拼接边界可能出现轻微错位
- 9 帧的序列长度较短,难以覆盖长时间操作任务
- 成功率基于视觉判断,未与实际机器人执行闭环验证
- 仅在 3 个数据集上测试,未验证跨域泛化能力(如从 JacoPlay 到 BridgeV2)
- 轨迹条件需预先提供 2D 轨迹,限制了自主规划的实用性
相关工作与启发¶
- RIGVid:用 AI 生成的任务视频估计 6-DoF 轨迹在真实机器人上执行
- Gen2Act:生成人类执行视频并条件化策略以泛化到新场景
- ControlNet:空间条件分支注入到冻结的文本-图像模型中,启发了本文的轨迹条件设计
- 启发:图像生成模型的组合先验可能适用于更多规划任务——如导航路径规划、装配序列规划等
评分¶
- 新颖性: ⭐⭐⭐⭐ 将图像生成器重新定位为视觉规划器的idea新颖且具启发性
- 实验充分度: ⭐⭐⭐ 3个数据集+消融完整,但缺乏与视频生成baseline的直接对比和真机验证
- 写作质量: ⭐⭐⭐ 结构清晰但数学描述略冗余,部分内容重复
- 价值: ⭐⭐⭐ 提供了一个有趣的研究方向,但实用价值受限于缺少闭环执行验证