Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation¶

会议: ACL 2025
arXiv: 2506.11380
代码: 有
领域: 多模态VLM
关键词: 多模态规划, 文本-图像计划生成, 视觉连贯性, 跨模态一致性, 自回归框架

一句话总结¶

本文提出一种自回归文本-图像计划生成框架（MPlanner），通过四阶段迭代——文本草拟、图像编辑、视觉信息提取、文本精炼——有效提升多模态计划中视觉步骤的连贯性和文本-图像的一致性。

研究背景与动机¶

日常生活中的任务计划（如烹饪步骤、园艺指南）需要文本说明和视觉示范的配合。虽然 LLM 在文本计划生成方面表现出色，但多模态计划生成（同时输出文本指令和配对图像序列）仍面临两个核心挑战：

视觉连贯性（Visual Coherence）：连续步骤的图像之间缺乏视觉一致性。例如，步骤1中的透明玻璃杯到步骤2变成了白色不透明花盆
跨模态一致性（Text-Image Consistency）：文本描述与对应图像内容不匹配。例如，文本说「间接光照」但图像显示直射阳光

现有方法（如直接将 LLM + 文本到图像模型拼接）无法解决这些问题，因为图像生成模块在生成当前步骤时不感知前一步的视觉状态。先前工作 TiP 虽引入了跨模态提示，但依赖图像描述作为桥梁，信息损失导致视觉不连贯。

方法详解¶

整体框架¶

MPlanner 采用四阶段自回归架构，在每个时间步 $k$ 执行：

Stage 1 - 文本草拟（Textual Plan Drafting）： $$d_k = \begin{cases} \mathbf{G}_t(\mathcal{G}), & k=1 \\ \mathbf{G}_t(\mathcal{G}, \text{Concat}(t_1, ..., t_{k-1})), & k>1 \end{cases}$$ 基于任务目标 $\mathcal{G}$ 和之前所有文本步骤生成当前步骤草稿 $d_k$。

Stage 2 - 视觉计划生成（Visual Plan Generation）： $$i_k = \mathbf{G}_i(d_k, i_{k-1})$$ 使用 InstructPix2Pix 图像编辑模型，基于文本草稿 $d_k$ 和上一步图像 $i_{k-1}$ 生成当前视觉步骤 $i_k$。关键在于以上一步图像为条件，而非从零生成，保证视觉连贯性。

Stage 3 - 视觉信息提取（Visual Information Extraction）： $$v_k = \mathbf{E}(i_k)$$ 借鉴经典规划领域的 PDDL，设计伪 PDDL（pPDDL）格式化表示，从图像中提取四类结构化信息：涉及对象（objects）、工具（tools）、动作（action）、目标（goal）。

Stage 4 - 文本精炼（Textual Plan Refinement）： $$t_k = \mathbf{G}_t(d_k, v_k)$$ 利用提取的视觉信息 $v_k$ 精炼草稿 $d_k$，确保文本最终版 $t_k$ 与实际生成图像一致。

关键设计¶

1. 图像编辑而非图像生成¶

选择 InstructPix2Pix 而非 Stable Diffusion 是核心设计决策： - 图像编辑：以上一步图像为输入，自然保持物体外观、场景布局的连续性 - 图像生成：每步从头生成，极易产生视觉断裂

为适配规划场景，对 InstructPix2Pix 进行了微调： - 从 wikiHow 收集 20,000 个任务的 {$i_{k-1}$, $t_k$, $i_k$} 三元组 - 训练数据划分 0.9/0.05/0.05 - 最终训练损失 0.100，验证损失 0.105

2. pPDDL 结构化视觉信息¶

而非让模型自由描述图像，本文设计了固定的提取格式：

Objects: [列表]
Tools: [列表]
Action: [描述]
Goal: [描述]

消融实验证明了这种结构化表示的优越性——自由文本描述会引入噪声，且噪声会在自回归过程中累积。

3. 即插即用的骨干兼容性¶

框架可搭配不同骨干 LLM： - Mistral-7B：开源小模型，视觉信息提取使用 InstructBLIP-Vicuna-7B - Gemini-1.5-Flash：闭源中等模型，自身充当视觉信息提取器 - GPT-4o：最强闭源模型，自身充当视觉信息提取器

损失函数 / 训练策略¶

本框架主体无需训练，但 InstructPix2Pix 微调使用标准扩散模型训练： - 在 wikiHow 数据集上微调 - 沿用 InstructPix2Pix 原始超参数 - 最大训练 50 epochs - 目标：学习给定上一步图像和文本指令，生成合理的下一步图像

实验关键数据¶

主实验¶

数据集：从 Instructables（100 个烹饪计划）和 wikiHow（1000 个专家文章，11 个类别）收集的 1100 个任务。

GPT-4o 骨干下的主要结果（表1摘要）：

方法	BertScore	R-1	CLIP↑	PPL↓	T-I↑	I-I↑
GPT（vanilla）	0.827	27.8	12.32	5.75	1.53	2.47
Sd	0.805	19.4	9.65	5.09	1.10	1.24
TiP	0.840	29.8	13.19	6.27	1.68	2.30
Ours	0.849	33.7	27.14	5.21	2.47	2.76

跨骨干一致性：三个骨干（Mistral-7B、Gemini-1.5、GPT-4o）在两个数据集上均显示一致趋势。

人工评估（表2）：Ours vs GPT-4o 对比

维度	Win/Tie/Lose	κ
文本质量	略优	0.521
图像连贯性	显著优	0.604
文本-图像对齐	显著优	0.699

消融实验¶

GPT-4o 骨干在 Instructables 上的消融（表3）：

变体	R-1	CLIP↑	PPL↓	T-I↑	I-I↑
w Des（自由描述替代pPDDL）	29.5	14.71	5.92	1.76	2.39
w Img（直接用图像精炼）	25.7	16.48	5.90	1.72	2.26
pPDDL-to-NL（先格式化后自然语言）	26.1	12.04	6.25	1.58	2.09
Ours（完整框架）	33.7	27.14	5.21	2.47	2.76

关键消融发现： - pPDDL > 自由描述：结构化提取避免了冗长噪声描述 - 显式提取 > 直接多模态输入：即使 GPT-4o 能理解图像，也需要外部提取器产生干净信息 - NL-to-pPDDL > pPDDL-to-NL：先用自然语言生成草稿更适合指导图像生成

关键发现¶

CLIP 分数提升最显著：Ours 方法在 CLIP 上的提升（从 ~12 到 ~27）远超其他指标，表明文本-图像一致性是最大改进点
Sd 基线的 PPL 最低但并非好：因为 Sd 生成的图像围绕同一主题，几乎不变化，导致描述相似、PPL 低，但缺乏实际规划能力
中等复杂度任务效果最好：太简单/太复杂的任务对框架不友好
wikiHow 上视觉/对齐指标普遍低于 Instructables：因 wikiHow 任务更长更复杂

亮点与洞察¶

自回归 + 跨模态循环：「文本→图像→视觉信息→文本精炼」的闭环设计非常优雅，有效解决了两个核心挑战
pPDDL 的引入：将经典 AI 规划概念（PDDL）引入多模态生成，为结构化视觉信息提取提供了有效模板
问题定义清晰：首次系统化地研究多模态计划生成中的连贯性和一致性问题
实用价值高：框架即插即用，可适配不同 LLM 和图像生成模型，具有良好的可扩展性

局限性 / 可改进方向¶

InstructPix2Pix 的局限：在涉及大幅场景变换的步骤中仍会产生视觉不连贯
间接视觉评估：通过图像→文本→PPL 的方式评估视觉连贯性是间接的，可能遗漏图像空间的细微差异
数据泄露风险：LLM 可能在训练中见过类似的任务计划
可探索更好的图像编辑模型：如 SDXL-based 的编辑模型，或直接用 VLM 生成图像
缺乏用户研究：人工评估仅限论文作者（3 名），较小的评估者规模限制了结论的泛化性

评分¶

维度	分数 (1-5)
创新性	4
实用性	4
实验完整度	4
写作清晰度	4
总评	4

框架设计优雅，问题定义明确，消融实验充分。pPDDL 的引入是一个巧妙的跨领域借鉴。主要不足在于视觉评估指标的间接性和图像编辑模型的固有局限。