coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation¶
会议: CVPR 2026
arXiv: 2603.12829
代码: 待发布(论文中提到 publication 后开源)
领域: 图像生成 / 多智能体系统
关键词: 组合文本到图像生成, 多智能体对话, 布局规划, 视觉上下文, 错误纠正
一句话总结¶
提出 coDrawAgents 交互式多智能体对话框架,通过解释器、规划器、检查器、画家四个专业智能体的闭环协作,以分治策略逐步规划布局并基于画布视觉上下文纠错,在 GenEval 上达到 0.94 的 SOTA 组合保真度。
背景与动机¶
文本到图像生成在处理多对象复杂场景时面临组合保真度问题:对象数量、空间关系、属性绑定难以同时满足。现有方法的问题:(1) 单智能体方法将解析、规划、验证全部交给一个模型,早期空间错误难以检测修复;(2) 现有多智能体框架本质上是固定流水线,缺乏协商和视觉反馈,错误仍会传播;(3) 全局布局规划面临对象间关系的二次复杂度,难以处理复杂场景;(4) 大多数方法在无视觉上下文的情况下预测布局,只能"想象"场景。
核心问题¶
如何在复杂多对象场景中实现忠实的文本到图像组合生成,同时解决布局复杂度高、缺乏视觉感知、以及早期错误无法纠正三大挑战。
方法详解¶
整体框架¶
四个智能体形成闭环对话:Interpreter 解析文本并决定生成模式(布局无感/布局感知)→ Planner 增量式规划布局 → Checker 验证并纠正 → Painter 渲染画布。布局感知模式下,按语义优先级分组对象,每轮处理同一优先级的对象集。
关键设计¶
- Interpreter(解释器): 判断文本复杂度,简单场景直接调用 T2I 模型,复杂场景激活布局感知模式。将文本分解为属性丰富的对象描述,按语义显著性排序并分组同优先级对象。通过 CoT 提示 LLM 完成分解、排序和属性增强。
- Planner + VCoT(规划器 + 可视化思维链): 每一轮为当前优先级对象规划布局,核心创新是 Visualization Chain-of-Thought (VCoT),由 GPT-5 作为 MLLM 执行三步推理:(1) Canvas State Analysis 分析已有画布状态;(2) Context-Aware Planning 基于视觉上下文推理新对象位置;(3) Physics Constraint Enforcement 确保物理合理性(如不漂浮)。规划器接收画布图像作为输入,实现"视觉接地"而非"想象式"规划。
- Checker(检查器): 两阶段检查-修正:(1) 对象级检查(尺寸、比例、边界覆盖)和全局级检查(相对位置、关系一致性);(2) 跨迭代回顾所有历史布局,修正遮挡、尺度漂移等跨对象冲突。修正后传递给 Painter。
- Painter(画家): 即插即用设计,T2I 使用 Flux,L2I 使用 3DIS,每轮增量渲染画布为下一轮提供视觉上下文。
损失函数 / 训练策略¶
无需额外训练。所有智能体均利用预训练的 LLM(GPT-5)和现有 T2I/L2I 模型,属于训练自由(training-free)和即插即用框架。
实验关键数据¶
| 数据集 | 指标 | 本文 | 之前SOTA | 提升 |
|---|---|---|---|---|
| GenEval | Overall Score | 0.94 | 0.84 (GPT Image 1 High) | +0.10 |
| GenEval | Two Objects | 0.96 | 0.92 | +0.04 |
| GenEval | Counting | 0.94 | 0.85 | +0.09 |
| GenEval | Colors | 0.97 | 0.92 | +0.05 |
| GenEval | Position | 0.95 | 0.75 | +0.20 |
| DPG-Bench | Overall | 85.17 | 84.08 (SD3-Medium) | +1.09 |
| DPG-Bench | Relation | 92.92 | 90.87 (FLUX) | +2.05 |
消融实验要点¶
- Layout-free baseline → +Layout-aware: DPG Overall 从 77.60→82.61,布局规划的分治策略有效
- +Visual context: 整体 82.61→84.51,视觉上下文接地显著提升空间一致性
- +Checker: 84.51→85.17,显式纠错进一步提升实体和属性忠实度
- 效率分析:DPG-Bench 平均每图 Interpreter 1.00 次, Planner 1.52 次, Checker 1.62 次, Painter 1.95 次,远少于平均对象数 2.79,因为分组策略减少了迭代轮次
亮点¶
- 分治策略将 N 个对象的全局布局问题分解为按语义优先级逐组规划,大幅降低复杂度
- 画布视觉上下文作为规划器的输入是关键创新:让布局推理从"想象"变为"看着画"
- 检查器的跨迭代回溯修正机制可处理早期错误在后续迭代中的级联效应
- GenEval Position 指标从 0.75 跃升到 0.95,说明空间推理能力显著增强
局限性 / 可改进方向¶
- 多智能体调用引入计算开销,推理时间比单次生成方法长
- 画家性能依赖底层 T2I/L2I 模型能力,如属性渲染不完美会传播到最终图像
- 规划器和检查器依赖 MLLM(GPT-5),存在幻觉和过度自信问题
- 迭代过程中可能存在误差累积,早期小偏差未被检查器完全修正时会传播
- 仅支持 2D 合成,未扩展到 3D 场景生成
与相关工作的对比¶
- 与 GoT(生成思维链)不同:GoT 一次性推理所有 bbox 且无视觉反馈,coDrawAgents 增量式规划并基于画布感知
- 与 T2I-Copilot(多智能体)不同:T2I-Copilot 是固定流水线无交互式对话和视觉接地
- 与 MCCD(多智能体组合扩散)不同:MCCD 仅做文本分解无画布感知,coDrawAgents 实现闭环协作
启发与关联¶
- 多智能体闭环协作的范式可推广到视频生成、3D 场景构建等需要逐步组合的任务
- VCoT(可视化思维链)的思路可用于其他需要空间推理的 MLLM 任务
- 分治+纠错的设计范式适用于任何复杂度随元素数增长的生成任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 闭环多智能体对话框架和 VCoT 视觉接地规划有创新
- 实验充分度: ⭐⭐⭐⭐ GenEval 和 DPG-Bench 全面比较,消融清晰
- 写作质量: ⭐⭐⭐⭐ 框架描述清楚,四个智能体的定位和分工明确
- 价值: ⭐⭐⭐ 工程性较强,依赖 GPT-5 的成本和可复现性待考虑