Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation¶
会议: ACL 2025
arXiv: 2506.11380
代码: 有
领域: 多模态VLM
关键词: 多模态规划, 文本-图像计划生成, 视觉连贯性, 跨模态一致性, 自回归框架
一句话总结¶
本文提出一种自回归文本-图像计划生成框架(MPlanner),通过四阶段迭代——文本草拟、图像编辑、视觉信息提取、文本精炼——有效提升多模态计划中视觉步骤的连贯性和文本-图像的一致性。
研究背景与动机¶
日常生活中的任务计划(如烹饪步骤、园艺指南)需要文本说明和视觉示范的配合。虽然 LLM 在文本计划生成方面表现出色,但多模态计划生成(同时输出文本指令和配对图像序列)仍面临两个核心挑战:
- 视觉连贯性(Visual Coherence):连续步骤的图像之间缺乏视觉一致性。例如,步骤1中的透明玻璃杯到步骤2变成了白色不透明花盆
- 跨模态一致性(Text-Image Consistency):文本描述与对应图像内容不匹配。例如,文本说「间接光照」但图像显示直射阳光
现有方法(如直接将 LLM + 文本到图像模型拼接)无法解决这些问题,因为图像生成模块在生成当前步骤时不感知前一步的视觉状态。先前工作 TiP 虽引入了跨模态提示,但依赖图像描述作为桥梁,信息损失导致视觉不连贯。
方法详解¶
整体框架¶
MPlanner 采用四阶段自回归架构,在每个时间步 \(k\) 执行:
Stage 1 - 文本草拟(Textual Plan Drafting): $\(d_k = \begin{cases} \mathbf{G}_t(\mathcal{G}), & k=1 \\ \mathbf{G}_t(\mathcal{G}, \text{Concat}(t_1, ..., t_{k-1})), & k>1 \end{cases}\)$ 基于任务目标 \(\mathcal{G}\) 和之前所有文本步骤生成当前步骤草稿 \(d_k\)。
Stage 2 - 视觉计划生成(Visual Plan Generation): $\(i_k = \mathbf{G}_i(d_k, i_{k-1})\)$ 使用 InstructPix2Pix 图像编辑模型,基于文本草稿 \(d_k\) 和上一步图像 \(i_{k-1}\) 生成当前视觉步骤 \(i_k\)。关键在于以上一步图像为条件,而非从零生成,保证视觉连贯性。
Stage 3 - 视觉信息提取(Visual Information Extraction): $\(v_k = \mathbf{E}(i_k)\)$ 借鉴经典规划领域的 PDDL,设计伪 PDDL(pPDDL)格式化表示,从图像中提取四类结构化信息:涉及对象(objects)、工具(tools)、动作(action)、目标(goal)。
Stage 4 - 文本精炼(Textual Plan Refinement): $\(t_k = \mathbf{G}_t(d_k, v_k)\)$ 利用提取的视觉信息 \(v_k\) 精炼草稿 \(d_k\),确保文本最终版 \(t_k\) 与实际生成图像一致。
关键设计¶
1. 图像编辑而非图像生成¶
选择 InstructPix2Pix 而非 Stable Diffusion 是核心设计决策: - 图像编辑:以上一步图像为输入,自然保持物体外观、场景布局的连续性 - 图像生成:每步从头生成,极易产生视觉断裂
为适配规划场景,对 InstructPix2Pix 进行了微调: - 从 wikiHow 收集 20,000 个任务的 {\(i_{k-1}\), \(t_k\), \(i_k\)} 三元组 - 训练数据划分 0.9/0.05/0.05 - 最终训练损失 0.100,验证损失 0.105
2. pPDDL 结构化视觉信息¶
而非让模型自由描述图像,本文设计了固定的提取格式:
消融实验证明了这种结构化表示的优越性——自由文本描述会引入噪声,且噪声会在自回归过程中累积。
3. 即插即用的骨干兼容性¶
框架可搭配不同骨干 LLM: - Mistral-7B:开源小模型,视觉信息提取使用 InstructBLIP-Vicuna-7B - Gemini-1.5-Flash:闭源中等模型,自身充当视觉信息提取器 - GPT-4o:最强闭源模型,自身充当视觉信息提取器
损失函数 / 训练策略¶
本框架主体无需训练,但 InstructPix2Pix 微调使用标准扩散模型训练: - 在 wikiHow 数据集上微调 - 沿用 InstructPix2Pix 原始超参数 - 最大训练 50 epochs - 目标:学习给定上一步图像和文本指令,生成合理的下一步图像
实验关键数据¶
主实验¶
数据集:从 Instructables(100 个烹饪计划)和 wikiHow(1000 个专家文章,11 个类别)收集的 1100 个任务。
GPT-4o 骨干下的主要结果(表1摘要):
| 方法 | BertScore | R-1 | CLIP↑ | PPL↓ | T-I↑ | I-I↑ |
|---|---|---|---|---|---|---|
| GPT(vanilla) | 0.827 | 27.8 | 12.32 | 5.75 | 1.53 | 2.47 |
| Sd | 0.805 | 19.4 | 9.65 | 5.09 | 1.10 | 1.24 |
| TiP | 0.840 | 29.8 | 13.19 | 6.27 | 1.68 | 2.30 |
| Ours | 0.849 | 33.7 | 27.14 | 5.21 | 2.47 | 2.76 |
跨骨干一致性:三个骨干(Mistral-7B、Gemini-1.5、GPT-4o)在两个数据集上均显示一致趋势。
人工评估(表2):Ours vs GPT-4o 对比
| 维度 | Win/Tie/Lose | κ |
|---|---|---|
| 文本质量 | 略优 | 0.521 |
| 图像连贯性 | 显著优 | 0.604 |
| 文本-图像对齐 | 显著优 | 0.699 |
消融实验¶
GPT-4o 骨干在 Instructables 上的消融(表3):
| 变体 | R-1 | CLIP↑ | PPL↓ | T-I↑ | I-I↑ |
|---|---|---|---|---|---|
| w Des(自由描述替代pPDDL) | 29.5 | 14.71 | 5.92 | 1.76 | 2.39 |
| w Img(直接用图像精炼) | 25.7 | 16.48 | 5.90 | 1.72 | 2.26 |
| pPDDL-to-NL(先格式化后自然语言) | 26.1 | 12.04 | 6.25 | 1.58 | 2.09 |
| Ours(完整框架) | 33.7 | 27.14 | 5.21 | 2.47 | 2.76 |
关键消融发现: - pPDDL > 自由描述:结构化提取避免了冗长噪声描述 - 显式提取 > 直接多模态输入:即使 GPT-4o 能理解图像,也需要外部提取器产生干净信息 - NL-to-pPDDL > pPDDL-to-NL:先用自然语言生成草稿更适合指导图像生成
关键发现¶
- CLIP 分数提升最显著:Ours 方法在 CLIP 上的提升(从 ~12 到 ~27)远超其他指标,表明文本-图像一致性是最大改进点
- Sd 基线的 PPL 最低但并非好:因为 Sd 生成的图像围绕同一主题,几乎不变化,导致描述相似、PPL 低,但缺乏实际规划能力
- 中等复杂度任务效果最好:太简单/太复杂的任务对框架不友好
- wikiHow 上视觉/对齐指标普遍低于 Instructables:因 wikiHow 任务更长更复杂
亮点与洞察¶
- 自回归 + 跨模态循环:「文本→图像→视觉信息→文本精炼」的闭环设计非常优雅,有效解决了两个核心挑战
- pPDDL 的引入:将经典 AI 规划概念(PDDL)引入多模态生成,为结构化视觉信息提取提供了有效模板
- 问题定义清晰:首次系统化地研究多模态计划生成中的连贯性和一致性问题
- 实用价值高:框架即插即用,可适配不同 LLM 和图像生成模型,具有良好的可扩展性
局限性 / 可改进方向¶
- InstructPix2Pix 的局限:在涉及大幅场景变换的步骤中仍会产生视觉不连贯
- 间接视觉评估:通过图像→文本→PPL 的方式评估视觉连贯性是间接的,可能遗漏图像空间的细微差异
- 数据泄露风险:LLM 可能在训练中见过类似的任务计划
- 可探索更好的图像编辑模型:如 SDXL-based 的编辑模型,或直接用 VLM 生成图像
- 缺乏用户研究:人工评估仅限论文作者(3 名),较小的评估者规模限制了结论的泛化性
相关工作与启发¶
- 任务规划:Huang et al. (2022) 的 LLM 零样本规划, Liu et al. (2023) 的 LLM + 经典规划器
- TiP (Lu et al., 2024):最直接的前序工作,使用 T2I-Bridge 和 I2T-Bridge 进行跨模态提示
- InstructPix2Pix (Brooks et al., 2023):条件图像编辑模型,本文在规划任务上对其进行了微调
- PDDL (Fox and Long, 2003):经典规划描述语言,本文将其简化为 pPDDL 用于视觉信息结构化
- 启发:跨模态循环精炼的思路可以推广到其他需要多模态对齐的任务(如多模态故事生成、教育内容创作)
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 实用性 | 4 |
| 实验完整度 | 4 |
| 写作清晰度 | 4 |
| 总评 | 4 |
框架设计优雅,问题定义明确,消融实验充分。pPDDL 的引入是一个巧妙的跨领域借鉴。主要不足在于视觉评估指标的间接性和图像编辑模型的固有局限。