Image Generation as a Visual Planner for Robotic Manipulation¶

会议: CVPR 2026 arXiv: 2512.00532 代码: GitHub 领域: 图像生成 / 机器人操作 关键词: 视觉规划, 机器人操作, 扩散模型, 网格图像生成, LoRA

一句话总结¶

将预训练图像生成模型（DiT）通过 LoRA 微调适配为机器人操作的视觉规划器，以 3×3 网格图像形式生成时序连贯的操作序列，支持文本条件和轨迹条件两种控制模式。

研究背景与动机¶

生成真实的机器人操作视频是实现感知-规划-动作统一的关键步骤。现有视频扩散模型需要大规模领域特定数据集，泛化能力有限且计算成本高。同时，大规模图像生成模型（如 FLUX.1-dev）在语言-图像对上训练后展现出强组合生成能力——能在单张网格布局中排列多个语义一致的子图像，隐式地呈现出类似短视频的时序过渡。

本文的核心假设是：预训练图像生成器已经编码了可迁移的时序先验，通过轻量级 LoRA 微调即可成为机器人操作的视觉规划器，无需设计专门的视频架构。

方法详解¶

整体框架¶

框架将机器人操作视频转化为 \(3 \times 3\) 网格图像问题。从每个操作视频中均匀采样 9 帧，按蛇形排列组成网格图像（\(1 \to 2 \to 3\), \(6 \leftarrow 5 \leftarrow 4\), \(7 \to 8 \to 9\)），训练时仅保留左上角第一帧作为条件输入（其余遮蔽为黑色），模型学习预测完整的 9 帧网格。基于 FLUX.1-dev（DiT 架构），通过 LoRA 适配器进行参数高效微调。

关键设计¶

蛇形网格排列 (Serpentine Grid Layout)：9 帧按蛇形顺序排列在 \(3 \times 3\) 网格中，使时序相邻帧在空间上也相邻。这一设计利用了 Transformer 局部注意力对短程时序依赖的建模能力，无需显式时序建模即可实现帧间一致性。网格构造为：

\[\mathbf{D} = \begin{bmatrix} D^{\text{img}_1} & D^{\text{img}_2} & D^{\text{img}_3} \\ D^{\text{img}_6} & D^{\text{img}_5} & D^{\text{img}_4} \\ D^{\text{img}_7} & D^{\text{img}_8} & D^{\text{img}_9} \end{bmatrix}\]

设计动机是确保任意两个时序相邻帧在网格中也物理相邻，便于局部注意力捕获连续动作。

双模态条件控制：
文本条件生成：给定语言指令（如 "pick up the red cup"）和首帧图像，通过 CLIP + T5 编码文本嵌入 \(c_{\text{text}} = \{e_{\text{clip}}, E_{\text{t5}}\}\)，经 cross-attention 注入 DiT。侧重语义理解——模型需理解高层语义并转化为合理动作序列。
轨迹条件生成：在首帧上渲染 2D 末端执行器轨迹（红→蓝表示时间进程），叠加后的图像替代首帧作为条件输入 \(\tilde{\mathbf{D}}^{\tau}\)。侧重空间精确控制——模型沿提供的轨迹路径生成动作。
LoRA 参数高效适配：对 DiT 中 self-attention 的 query/value 投影和前馈层应用 LoRA（低秩 \(r \ll d\)），仅训练 \(O(rd)\) 参数而非 \(O(d^2)\)，实现从通用图像生成到机器人视频领域的高效迁移，不增加推理延迟。

损失函数 / 训练策略¶

使用潜空间 MSE 损失：\(\mathcal{L}_{\text{lat}} = \|\mathcal{E}(\mathbf{D}_{gt}) - \mathcal{E}(\hat{\mathbf{D}})\|_2^2\)，其中 \(\mathcal{E}\) 为 VAE 编码器。模型进行单次网格生成（非自回归逐帧），一次性预测完整 9 帧网格，利用图像生成模型的组合先验进行隐式时序推理。

实验关键数据¶

主实验¶

数据集	方法	FVD↓	SSIM↑	MSE↓	Success↑
JacoPlay	Text	490.7	0.797	0.00695	80.6%
JacoPlay	Traj	503.37	0.802	0.00680	74.0%
BridgeV2	Text	644.2	0.733	0.0135	73.2%
BridgeV2	Traj	693.2	0.726	0.0152	70.9%
RT-1	Text	698.0	0.727	0.0118	72.4%
RT-1	Traj	688.1	0.731	0.0117	81.7%

消融实验（BridgeV2）¶

配置	FVD↓	SSIM↑	Success↑	说明
Full (Traj)	644.2	0.733	73.2%	完整模型
Full (Text)	693.2	0.726	70.9%	完整模型
w/o LoRA	4377.1	0.064	0%	冻结骨干完全失败
w/o Prompt Template	843.4	0.754	2.5%	语义引导严重退化
w/o Trajectory Overlay	720.0	0.749	3.9%	空间控制丧失

关键发现¶

LoRA 是关键组件：不使用 LoRA 时 FVD 从 644 飙升至 4377，成功率降为 0%
文本模板对语义理解至关重要：移除后成功率从 73.2% 降至 2.5%
文本条件在 JacoPlay/BridgeV2 上更优（语义跟随），轨迹条件在 RT-1 上更优（空间跟随）
两种条件模式互补：文本擅长语义推理，轨迹擅长几何精度

亮点与洞察¶

新颖视角：首次系统验证预训练图像生成模型可作为机器人视觉规划器——仅通过 LoRA 微调即可将图像生成器转化为视频合成器
极端简洁的时序建模：完全不使用时序模块，仅通过网格布局+局部注意力实现帧间一致性
成本效益：无需大规模视频数据集或专用视频架构，利用预训练图像生成器的组合先验，LoRA 微调即可

局限性 / 可改进方向¶

网格拼接块之间偶有色调/纹理不一致，拼接边界可能出现轻微错位
9 帧的序列长度较短，难以覆盖长时间操作任务
成功率基于视觉判断，未与实际机器人执行闭环验证
仅在 3 个数据集上测试，未验证跨域泛化能力（如从 JacoPlay 到 BridgeV2）
轨迹条件需预先提供 2D 轨迹，限制了自主规划的实用性

评分¶

新颖性: ⭐⭐⭐⭐ 将图像生成器重新定位为视觉规划器的idea新颖且具启发性
实验充分度: ⭐⭐⭐ 3个数据集+消融完整，但缺乏与视频生成baseline的直接对比和真机验证
写作质量: ⭐⭐⭐ 结构清晰但数学描述略冗余，部分内容重复
价值: ⭐⭐⭐ 提供了一个有趣的研究方向，但实用价值受限于缺少闭环执行验证