ConsistCompose: Unified Multimodal Layout Control for Image Composition¶

会议: CVPR2026 arXiv: 2511.18333 代码: 待确认领域: 图像生成 关键词: 布局控制生成, 多实例组合, 统一多模态模型, 语言嵌入式布局, Classifier-Free Guidance

一句话总结¶

提出 LELG（语言嵌入式布局引导生成）范式，将 bounding box 坐标直接编码为文本 token 嵌入语言流，在统一多模态 Transformer 中实现布局可控的多实例图像生成，无需任何布局专用编码器或分支。

背景与动机¶

现有统一多模态模型偏重理解：DALL-E、Stable Diffusion 等生成质量优异，但统一多模态模型主要聚焦视觉理解（grounding），对布局可控生成支持不足，限制了组合式场景合成。
扩散方法架构耦合严重：GLIGEN、InstanceDiffusion 等依赖布局-图像融合模块或 region-aware U-Net 改造，与 Transformer 生成框架难以兼容。
自回归方法仍局限于布局任务：LayoutSAM、HiCo、PlanGen 等仅处理布局相关任务，未展示与视觉推理、图像编辑等通用多模态能力的兼容性。
多参考身份保持生成被忽视：大多数工作仅关注文本条件布局控制，很少考虑多参考、身份保持的多实例组合这一更具挑战性的设定。
大规模数据集缺失：缺乏同时提供实例级布局、主体对应关系和多样多实例配置的大规模数据集，制约了统一布局感知系统的发展。
核心洞察——将布局编码为语言：当布局语义表示为文本的一部分时，多模态 Transformer 可通过与感知和推理相同的交错建模学习空间对齐，无需任何架构修改。

方法详解¶

整体框架¶

ConsistCompose 基于 Bagel 的 MoT（Mixture-of-Transformers）架构构建，包含两个 Transformer 专家：一个用于多模态理解，一个用于多模态生成。使用两个视觉编码器：SigLIP 初始化的 ViT 用于语义感知，FLUX 初始化的 VAE 用于图像生成。所有模态（文本、ViT 特征、VAE 潜变量）投影到共享嵌入空间。

LELG 范式与 ICBP 机制¶

核心创新是 语言嵌入式布局引导生成（LELG）：将归一化 bounding box 直接作为文本 token 插入。每个实例 \(i\) 的坐标 \(b_i=(x_1^i, y_1^i, x_2^i, y_2^i) \in [0,1]^4\) 以三位小数精度紧跟在对应主语短语之后：

"a brown sofa <bbox>[0.123, 0.456, 0.789, 0.987]</bbox>"

这一 Instance Coordinate Binding Prompt（ICBP） 机制将对象的语言引用与空间坐标绑定在统一生成序列中，无需额外几何损失，模型通过交错文本和视觉 token 上的自注意力隐式学习空间对齐。

Coordinate-CFG 增强空间控制¶

引入坐标感知 Classifier-Free Guidance：条件分支使用含坐标 token 的 prompt，无条件分支省略坐标。公式为：

\[\mathbf{v}_t^{\text{coord-cfg}} = \mathbf{v}_t^{\text{coord-uncond}} + s_{\text{coord}} (\mathbf{v}_t^{\text{coord}} - \mathbf{v}_t^{\text{coord-uncond}})\]

额外引入速度归一化保证引导幅度稳定。\(s_{\text{coord}}\) 越大布局越严格，过大则质量下降——COCO-Position 上最优 1.6，MS-Bench 上最优 0.4–0.8。

训练目标与策略¶

Flow Matching 损失：\(\mathcal{L}_{\text{FM}}\) 用于图像生成，预测潜变量间的速度场
自回归 LM 损失：\(\mathcal{L}_{\text{LM}}\) 用于多模态理解的 next-token prediction
总损失：\(\mathcal{L} = \lambda_{\text{FM}} \mathcal{L}_{\text{FM}} + \lambda_{\text{LM}} \mathcal{L}_{\text{LM}}\)，不引入额外坐标回归损失
两阶段训练：① 对齐阶段混合通用多模态理解数据 + ConsistCompose3M；② 混合 SFT 阶段联合训练理解、生成、编辑和多主体参考生成数据

ConsistCompose3M 数据集¶

构建 340 万样本大规模数据集，包含两部分：

T2I 组件（260 万）：重处理 LayoutSAM，通过 ICBP 机制将实例级布局注释注入 prompt
参考条件组件（80 万）：复用 Subjects200K 和 UNO 的主体资产，在多样布局下重组为多主体场景，经 CLIP/DINO 相似度过滤确保身份一致性

实验关键数据¶

COCO-Position 布局控制¶

方法	Avg Instance SR(%)	Avg Image SR(%)	mIoU	AP	AP50	AP75
GLIGEN	82.6	52.1	69.0	40.5	75.9	39.1
InstanceDiffusion	87.8	65.5	78.1	57.2	83.6	65.5
MIGC++	86.8	63.4	74.9	48.3	79.2	52.6
PlanGen	82.5	50.3	66.2	31.9	74.0	21.5
ConsistCompose	92.6	76.1	85.3	70.9	89.1	76.9

ConsistCompose 在所有指标上均取得最优。mIoU 提升 7.2%（78.1→85.3），AP 提升 13.7%（57.2→70.9），高实例数场景（L4-L6）优势尤为显著。

MS-Bench 多参考身份保持¶

方法	CLIP-T	DINO	mIoU	AP
GLIGEN	0.309	0.454	0.868	0.751
MS-Diffusion	0.336	0.555	0.466	0.108
MUSE	0.320	0.619	0.698	0.352
ConsistCompose	0.333	0.660	0.889	0.789

在身份保持（DINO）和空间精度（mIoU、AP）上同时取得最优，打破了先前方法在这两个维度上的此消彼长。

消融：通用能力保持¶

布局训练对通用能力无明显损害：MMBench 81.4（与 Bagel Base 持平），GenEval 0.88（略优于 Base 的 0.86），DreamBench 单/多目标 DINO 分别达 0.677/0.506，均为最优。

亮点¶

极简统一设计：布局信息完全编码为文本 token，无需布局编码器、区域注意力或任务分支，优雅地统一了空间控制与多模态理解
Coordinate-CFG 可调控：通过推理时 CFG 尺度灵活控制布局精度与视觉质量的平衡，不同任务可独立设置最优值
大规模数据集贡献：ConsistCompose3M 填补了布局+身份联合标注数据集的空白
通用能力无损：布局训练后 MMBench/GenEval 等通用指标持平甚至略优，证明统一训练不牺牲已有能力

局限性 / 可改进方向¶

当前仅支持 bounding box 级空间控制，不支持更精细的语义分割、关键点等空间描述
Coordinate-CFG 需要额外推理步骤（含/不含坐标的双路推理），增加了采样开销
MMMU 分数（42.3）较 Bagel Base（46.4）有所下降，暗示强布局训练可能轻微影响跨域推理
三位小数精度的坐标离散化是否为最优粒度仍不清楚
基于 Bagel 的 MoT 架构规模较大，部署成本和训练资源需求高
未探索交互式布局编辑或渐进式场景构建等更丰富的应用场景

与相关工作的对比¶

vs GLIGEN/InstanceDiffusion：基于 U-Net 的布局融合模块，架构耦合度高；ConsistCompose 以纯文本接口实现空间控制，更轻量且通用
vs PlanGen/LayoutSAM：使用结构化空间 token 或独立模态处理布局，仅限布局任务；ConsistCompose 统一布局、理解、生成
vs MS-Diffusion/MUSE：多参考生成方法在空间精度或身份保持上有偏科；ConsistCompose 二者兼顾
vs OmniGen2/Bagel：统一多模态模型但缺乏显式布局控制；ConsistCompose 在 Bagel 基础上通过 LELG 补全了空间控制能力

评分¶

新颖性: ⭐⭐⭐⭐ — LELG 范式将布局编码为语言 token 的思路简洁而有效，Coordinate-CFG 机制设计合理
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 COCO-Position、MS-Bench、GenEval、DreamBench 等多个 benchmark，消融充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，符号一致，图表质量高
价值: ⭐⭐⭐⭐ — 为统一多模态模型增加布局控制能力提供了可行路径，数据集贡献有持续价值