跳转至

Enhance Multimodal Consistency and Coherence for Text-Image Plan Generation

会议: ACL 2025
arXiv: 2506.11380
代码:
领域: 多模态VLM
关键词: 多模态规划, 文本-图像计划生成, 视觉连贯性, 跨模态一致性, 自回归框架

一句话总结

本文提出一种自回归文本-图像计划生成框架(MPlanner),通过四阶段迭代——文本草拟、图像编辑、视觉信息提取、文本精炼——有效提升多模态计划中视觉步骤的连贯性和文本-图像的一致性。

研究背景与动机

日常生活中的任务计划(如烹饪步骤、园艺指南)需要文本说明和视觉示范的配合。虽然 LLM 在文本计划生成方面表现出色,但多模态计划生成(同时输出文本指令和配对图像序列)仍面临两个核心挑战:

  1. 视觉连贯性(Visual Coherence):连续步骤的图像之间缺乏视觉一致性。例如,步骤1中的透明玻璃杯到步骤2变成了白色不透明花盆
  2. 跨模态一致性(Text-Image Consistency):文本描述与对应图像内容不匹配。例如,文本说「间接光照」但图像显示直射阳光

现有方法(如直接将 LLM + 文本到图像模型拼接)无法解决这些问题,因为图像生成模块在生成当前步骤时不感知前一步的视觉状态。先前工作 TiP 虽引入了跨模态提示,但依赖图像描述作为桥梁,信息损失导致视觉不连贯。

方法详解

整体框架

MPlanner 采用四阶段自回归架构,在每个时间步 \(k\) 执行:

Stage 1 - 文本草拟(Textual Plan Drafting): $\(d_k = \begin{cases} \mathbf{G}_t(\mathcal{G}), & k=1 \\ \mathbf{G}_t(\mathcal{G}, \text{Concat}(t_1, ..., t_{k-1})), & k>1 \end{cases}\)$ 基于任务目标 \(\mathcal{G}\) 和之前所有文本步骤生成当前步骤草稿 \(d_k\)

Stage 2 - 视觉计划生成(Visual Plan Generation): $\(i_k = \mathbf{G}_i(d_k, i_{k-1})\)$ 使用 InstructPix2Pix 图像编辑模型,基于文本草稿 \(d_k\) 和上一步图像 \(i_{k-1}\) 生成当前视觉步骤 \(i_k\)关键在于以上一步图像为条件,而非从零生成,保证视觉连贯性。

Stage 3 - 视觉信息提取(Visual Information Extraction): $\(v_k = \mathbf{E}(i_k)\)$ 借鉴经典规划领域的 PDDL,设计伪 PDDL(pPDDL)格式化表示,从图像中提取四类结构化信息:涉及对象(objects)、工具(tools)、动作(action)、目标(goal)

Stage 4 - 文本精炼(Textual Plan Refinement): $\(t_k = \mathbf{G}_t(d_k, v_k)\)$ 利用提取的视觉信息 \(v_k\) 精炼草稿 \(d_k\),确保文本最终版 \(t_k\) 与实际生成图像一致。

关键设计

1. 图像编辑而非图像生成

选择 InstructPix2Pix 而非 Stable Diffusion 是核心设计决策: - 图像编辑:以上一步图像为输入,自然保持物体外观、场景布局的连续性 - 图像生成:每步从头生成,极易产生视觉断裂

为适配规划场景,对 InstructPix2Pix 进行了微调: - 从 wikiHow 收集 20,000 个任务的 {\(i_{k-1}\), \(t_k\), \(i_k\)} 三元组 - 训练数据划分 0.9/0.05/0.05 - 最终训练损失 0.100,验证损失 0.105

2. pPDDL 结构化视觉信息

而非让模型自由描述图像,本文设计了固定的提取格式:

Objects: [列表]
Tools: [列表]
Action: [描述]
Goal: [描述]

消融实验证明了这种结构化表示的优越性——自由文本描述会引入噪声,且噪声会在自回归过程中累积。

3. 即插即用的骨干兼容性

框架可搭配不同骨干 LLM: - Mistral-7B:开源小模型,视觉信息提取使用 InstructBLIP-Vicuna-7B - Gemini-1.5-Flash:闭源中等模型,自身充当视觉信息提取器 - GPT-4o:最强闭源模型,自身充当视觉信息提取器

损失函数 / 训练策略

本框架主体无需训练,但 InstructPix2Pix 微调使用标准扩散模型训练: - 在 wikiHow 数据集上微调 - 沿用 InstructPix2Pix 原始超参数 - 最大训练 50 epochs - 目标:学习给定上一步图像和文本指令,生成合理的下一步图像

实验关键数据

主实验

数据集:从 Instructables(100 个烹饪计划)和 wikiHow(1000 个专家文章,11 个类别)收集的 1100 个任务。

GPT-4o 骨干下的主要结果(表1摘要)

方法 BertScore R-1 CLIP↑ PPL↓ T-I↑ I-I↑
GPT(vanilla) 0.827 27.8 12.32 5.75 1.53 2.47
Sd 0.805 19.4 9.65 5.09 1.10 1.24
TiP 0.840 29.8 13.19 6.27 1.68 2.30
Ours 0.849 33.7 27.14 5.21 2.47 2.76

跨骨干一致性:三个骨干(Mistral-7B、Gemini-1.5、GPT-4o)在两个数据集上均显示一致趋势。

人工评估(表2):Ours vs GPT-4o 对比

维度 Win/Tie/Lose κ
文本质量 略优 0.521
图像连贯性 显著优 0.604
文本-图像对齐 显著优 0.699

消融实验

GPT-4o 骨干在 Instructables 上的消融(表3)

变体 R-1 CLIP↑ PPL↓ T-I↑ I-I↑
w Des(自由描述替代pPDDL) 29.5 14.71 5.92 1.76 2.39
w Img(直接用图像精炼) 25.7 16.48 5.90 1.72 2.26
pPDDL-to-NL(先格式化后自然语言) 26.1 12.04 6.25 1.58 2.09
Ours(完整框架) 33.7 27.14 5.21 2.47 2.76

关键消融发现: - pPDDL > 自由描述:结构化提取避免了冗长噪声描述 - 显式提取 > 直接多模态输入:即使 GPT-4o 能理解图像,也需要外部提取器产生干净信息 - NL-to-pPDDL > pPDDL-to-NL:先用自然语言生成草稿更适合指导图像生成

关键发现

  1. CLIP 分数提升最显著:Ours 方法在 CLIP 上的提升(从 ~12 到 ~27)远超其他指标,表明文本-图像一致性是最大改进点
  2. Sd 基线的 PPL 最低但并非好:因为 Sd 生成的图像围绕同一主题,几乎不变化,导致描述相似、PPL 低,但缺乏实际规划能力
  3. 中等复杂度任务效果最好:太简单/太复杂的任务对框架不友好
  4. wikiHow 上视觉/对齐指标普遍低于 Instructables:因 wikiHow 任务更长更复杂

亮点与洞察

  1. 自回归 + 跨模态循环:「文本→图像→视觉信息→文本精炼」的闭环设计非常优雅,有效解决了两个核心挑战
  2. pPDDL 的引入:将经典 AI 规划概念(PDDL)引入多模态生成,为结构化视觉信息提取提供了有效模板
  3. 问题定义清晰:首次系统化地研究多模态计划生成中的连贯性和一致性问题
  4. 实用价值高:框架即插即用,可适配不同 LLM 和图像生成模型,具有良好的可扩展性

局限性 / 可改进方向

  1. InstructPix2Pix 的局限:在涉及大幅场景变换的步骤中仍会产生视觉不连贯
  2. 间接视觉评估:通过图像→文本→PPL 的方式评估视觉连贯性是间接的,可能遗漏图像空间的细微差异
  3. 数据泄露风险:LLM 可能在训练中见过类似的任务计划
  4. 可探索更好的图像编辑模型:如 SDXL-based 的编辑模型,或直接用 VLM 生成图像
  5. 缺乏用户研究:人工评估仅限论文作者(3 名),较小的评估者规模限制了结论的泛化性

相关工作与启发

  • 任务规划:Huang et al. (2022) 的 LLM 零样本规划, Liu et al. (2023) 的 LLM + 经典规划器
  • TiP (Lu et al., 2024):最直接的前序工作,使用 T2I-Bridge 和 I2T-Bridge 进行跨模态提示
  • InstructPix2Pix (Brooks et al., 2023):条件图像编辑模型,本文在规划任务上对其进行了微调
  • PDDL (Fox and Long, 2003):经典规划描述语言,本文将其简化为 pPDDL 用于视觉信息结构化
  • 启发:跨模态循环精炼的思路可以推广到其他需要多模态对齐的任务(如多模态故事生成、教育内容创作)

评分

维度 分数 (1-5)
创新性 4
实用性 4
实验完整度 4
写作清晰度 4
总评 4

框架设计优雅,问题定义明确,消融实验充分。pPDDL 的引入是一个巧妙的跨领域借鉴。主要不足在于视觉评估指标的间接性和图像编辑模型的固有局限。