MultiGen: Zero-Shot Image Generation from Multi-modal Prompts¶

会议: ECCV 2024
作者: Zhi-Fan Wu, Lianghua Huang, Wei Wang, Yanheng Wei, Yu Liu 代码: 无
领域: 图像生成 / 扩散模型
关键词: 多模态提示, 零样本图像生成, 增广token, 扩散模型, 多物体可控生成

一句话总结¶

本文提出 MultiGen，通过为每个物体构建"增广token"（融合文本、坐标和图像信息），并训练坐标模型和特征模型来处理推理时的模态缺失，首次实现了从多物体多模态提示进行零样本图像生成，支持纯文本或任意模态组合的灵活输入。

研究背景与动机¶

领域现状：文本到图像生成（Text-to-Image Generation）近年取得了巨大进展，Stable Diffusion、DALL-E 等模型已能根据文本描述生成高质量图像。但纯文本描述在精确控制物体外观、位置、细节等方面存在天然局限。

现有痛点：仅靠文本很难精确描述物体的具体外观（如"一只和我家猫一样的猫"）、精确位置（如"左上角放一个杯子"）等信息。现有方法要么需要微调（如 DreamBooth、Textual Inversion）来学习特定概念，要么只支持单个物体作为额外条件（如 IP-Adapter），无法直接支持多物体、多模态提示的零样本生成。多物体 + 多模态（文本+坐标+参考图像的任意组合）的零样本生成仍是未解决的挑战。

核心矛盾：用户想用多种模态（文本描述+空间位置+参考图像）来精确控制多个物体的生成，但(1)训练时需要多模态对齐的数据，(2)推理时用户可能只提供部分模态，需要模型能处理任意模态缺失的情况。

本文目标 (1) 如何在一个统一框架中同时支持文本、坐标、参考图像三种模态？(2) 如何支持多个物体的同时可控生成？(3) 如何在零样本设置下工作，不需要针对特定物体/概念做微调？(4) 如何处理推理时部分模态缺失的情况？

切入角度：作者将每个物体的多模态信息封装成一个"增广token"（augmented token），使其可以与标准的文本 prompt 一起输入扩散模型，从而复用文本到图像模型的生成能力。对于推理时缺失的模态，训练专门的模型来从已知模态生成缺失模态。

核心 idea：将每个物体的文本、坐标、图像特征融合成"增广token"与文本 prompt 联合训练扩散模型，并用辅助模型预测缺失模态以实现零样本多模态可控生成。

方法详解¶

整体框架¶

MultiGen 基于预训练的文本到图像扩散模型（如 Stable Diffusion）。给定一张图像-文本对，系统先提取物体级别的三种信息：文本描述（object-level text）、空间坐标（bounding box）、参考图像特征（object image features）。然后将这三种信息融合为每个物体的"增广token"。这些增广token 与全局文本 prompt 一起作为条件输入扩散模型进行去噪训练。推理时，为了解决模态缺失问题，使用训练好的坐标模型（从文本预测布局）和特征模型（从文本预测视觉特征）来补全缺失信息。

关键设计¶

增广Token（Augmented Token）:
- 功能：将每个物体的多模态信息（文本、坐标、图像）编码为一个统一的 token 表示
- 核心思路：对于每个物体，分别获取其文本描述的 CLIP 文本特征、bounding box 的位置编码、以及参考图像的 CLIP 视觉特征。然后通过一个轻量级的融合网络将三种特征整合为一个"增广token"。这个 token 的维度与文本 embedding 兼容，可以直接拼接到全局 prompt 的 token 序列中。训练时使用图像-文本数据集自动提取物体信息来构造训练样本
- 设计动机：将多模态信息压缩为与文本 token 同构的表示，使得扩散模型的 cross-attention 机制能自然地处理多模态条件，无需修改模型架构
坐标模型（Coordinate Model）:
- 功能：在推理时从纯文本描述自动预测物体的空间布局（bounding box 坐标）
- 核心思路：训练一个轻量级模型，输入为全局文本描述和各物体的文本标签，输出为每个物体的预测 bounding box。这个模型在大量图像-文本数据上训练，学习文本描述与空间布局之间的对应关系。当用户只提供文本而不指定位置时，坐标模型自动补全位置信息
- 设计动机：用户通常不想手动指定每个物体的精确坐标。坐标模型让 MultiGen 在纯文本输入时也能工作，同时用户也可以覆盖自动预测的位置来手动控制布局
特征模型（Feature Model）:
- 功能：在推理时从文本描述生成物体的视觉特征，替代缺失的参考图像
- 核心思路：训练一个从 CLIP 文本特征到 CLIP 视觉特征的映射模型。当用户没有为某个物体提供参考图像时，特征模型根据文本描述生成近似的视觉特征，作为增广token 的图像特征分量。这种"文本到视觉特征"的转换比直接的"文本到图像"更轻量，只需要在特征空间中做对齐
- 设计动机：零样本设置要求模型在没有任何参考图像的情况下也能工作。特征模型弥合了文本和视觉模态之间的 gap，使得增广token 在各种输入组合下都能保证质量

损失函数 / 训练策略¶

扩散模型部分使用标准的去噪损失 \(L_{denoise} = \mathbb{E}_{t,\epsilon}\|\epsilon - \epsilon_\theta(x_t, c)\|^2\)，其中条件 \(c\) 包含全局文本 prompt 和所有物体的增广token。坐标模型使用 L1 坐标回归损失。特征模型使用 cosine similarity 损失来对齐文本特征和视觉特征。训练分阶段进行：先分别训练坐标模型和特征模型，再联合微调扩散模型与增广token 的融合网络。

实验关键数据¶

主实验¶

任务/设置	指标	MultiGen	之前SOTA	说明
多物体布局控制	FID ↓	显著优于	GLIGEN	支持多模态而非仅文本+坐标
单物体外观参考	CLIP-I ↑	有竞争力	IP-Adapter	零样本无需微调
纯文本生成	FID ↓	与 SD 相当	Stable Diffusion	坐标和特征模型自动补全
多模态组合	用户研究	优选率高	无同类方法	首个支持此设定的方法

消融实验¶

配置	关键指标	说明
Full MultiGen	最优	三种模态完整输入
w/o 坐标信息	布局混乱	物体位置无法控制，重叠严重
w/o 参考图像特征	外观一致性下降	只靠文本描述无法刻画细节外观
w/o 特征模型	纯文本模式失效	无法处理缺少参考图像的情况
单物体 vs 多物体	多物体稍有下降	物体间干扰导致质量有一定损失

关键发现¶

增广token 的设计使得模型可以自然地支持任意数量的物体，扩展性好
坐标模型和特征模型的质量对最终生成效果影响显著——辅助模型的准确性是系统的瓶颈
在多物体场景中，物体间的属性混淆（attribute leaking）仍是一个问题，尤其是物体类别相近时
零样本效果虽不如微调方法（如 DreamBooth），但远优于其他零样本方法

亮点与洞察¶

增广token 的统一表示是一个优雅的设计：将多模态信息统一为与文本 token 同构的表示，避免了对扩散模型架构的修改。这种设计思路可以推广到视频生成、3D 生成等需要多模态条件的任务中
模态缺失的处理策略——用辅助模型预测缺失模态——是一种通用的方案。相比训练时随机 dropout 模态，这种方式在推理时更稳定
首次定义并解决了"多物体多模态零样本生成"问题，为后续研究奠定了基础和 baseline

局限与展望¶

多物体生成时的属性泄露（attribute leaking）问题尚未完全解决，物体间的特征容易交叉污染
坐标模型的预测精度有限，对于复杂布局（如 >5 个物体）的空间推理能力不足
当前只支持 bounding box 级别的空间控制，不支持更精细的分割遮罩或关键点控制
特征模型从文本生成的视觉特征与真实图像特征仍有 gap，导致零样本模式的外观保真度不够高
训练需要额外的坐标模型和特征模型，增加了系统复杂度

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出多物体多模态零样本生成的问题定义和解决方案
实验充分度: ⭐⭐⭐ 定性结果丰富，但定量对比受限于缺少同类方法的直接对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法流程描述清楚
价值: ⭐⭐⭐⭐ 开拓了新的问题设定，增广token 设计有启发性