MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation¶

会议: CVPR 2025
arXiv: 2505.02648
代码: 无
领域: 图像生成
关键词: 组合式扩散, 多智能体协作, 复杂场景生成, 文本到图像, 训练免

一句话总结¶

MCCD提出基于多智能体协作的组合式扩散方法，利用MLLM驱动的多智能体系统进行复杂场景解析，并通过层次化组合扩散（高斯mask和区域增强）实现多目标复杂场景的准确高保真生成，且无需训练。

领域现状：扩散模型在文本到图像生成上表现优异，但处理包含多个目标、属性和关系的复杂提示时，经常出现目标缺失、属性错误绑定等问题。

现有痛点：（1）标准扩散模型难以正确处理多目标的空间关系和属性绑定；（2）已有的组合式方法（如Attend-and-Excite）在极复杂场景中仍然力不从心；（3）场景解析通常依赖简单规则，无法处理语义复杂的描述。

核心矛盾：复杂场景包含多层次信息（目标数量、位置、属性、关系），需要从language理解到visual生成的全链路支撑。

本文目标：以训练免的方式显著提升扩散模型在复杂场景下的生成能力。

切入角度：用多智能体系统（基于MLLM）进行系统化场景解析，用层次化扩散进行精细化区域生成。

核心 idea：多智能体协作解析复杂prompt → 生成结构化布局 → 高斯mask区域约束 → 区域增强精细化生成。

输入复杂文本提示，首先由多智能体协作场景解析模块将提示分解为目标列表、属性、空间关系和布局信息。然后层次化组合扩散模块利用高斯mask和过滤机制细化各目标区域，通过区域增强实现准确生成。

多智能体协作场景解析:
- 功能：将复杂文本提示结构化分解
- 核心思路：设计多个具有不同角色的MLLM智能体——目标提取智能体识别所有目标及属性，布局规划智能体生成空间位置（bounding box），关系验证智能体检查目标间关系是否满足。多个智能体通过协作机制迭代优化解析结果
- 设计动机：单一LLM难以一次性处理所有复杂语义，分工协作更接近人类处理复杂信息的方式
层次化组合扩散:
- 功能：在扩散采样过程中精确控制各目标的生成
- 核心思路：对每个目标区域生成高斯mask作为软空间约束，在去噪过程中将各区域的噪声预测用mask混合。通过过滤操作去除区域间的信息泄漏，确保各区域独立生成正确的目标
- 设计动机：简单的attention操控不足以处理多目标场景，显式的空间约束更可靠
区域增强:
- 功能：提升各目标区域的生成质量和细节
- 核心思路：在扩散的特定步骤中，对各目标区域进行局部增强——在该区域内使用目标特定的prompt重新生成细节，然后与全局生成结果融合。这确保了每个目标的属性正确且细节丰富
- 设计动机：全局生成往往在细节上有所妥协，区域增强提供了精细化修正的机会

MCCD是训练免（training-free）方法，直接在推理阶段操控扩散采样过程，不修改模型权重。

Benchmark	指标	MCCD	基线SD	提升
T2I-CompBench	属性绑定	大幅提升	标准SD	准确率提升显著
T2I-CompBench	空间关系	大幅提升	标准SD	关系准确度提升
复杂场景	目标完整度	大幅提升	Attend-Excite	更多目标正确生成