ConsistCompose: Unified Multimodal Layout Control for Image Composition¶

会议: CVPR 2026
arXiv: 2511.18333
代码: 无
领域: 图像生成 / 布局控制
关键词: 布局控制生成, 多实例图像合成, LELG, 坐标嵌入prompt, 身份保持

一句话总结¶

提出 ConsistCompose，通过将布局坐标直接嵌入语言prompt（LELG范式），在统一多模态框架中实现布局可控的多实例图像生成；构建340万样本的ConsistCompose3M数据集提供布局+身份监督；配合坐标感知CFG机制，在COCO-Position上实现布局IoU 7.2%提升和AP 13.7%提升，同时保持通用理解能力。

研究背景与动机¶

领域现状：统一多模态模型（如Bagel、OmniGen2）已能在单一架构中完成理解和生成，但主要聚焦于视觉理解（grounding），生成侧的布局精确控制仍然薄弱。
现有痛点：布局控制生成的现有方法存在根本性障碍——(a) 扩散模型方法（GLIGEN、InstanceDiffusion）依赖专门的布局-图像融合模块或区域感知U-Net，与Transformer生成框架不兼容；(b) 自回归模型（LayoutSAM、PlanGen）将布局作为独立模态处理，仅限于布局任务，无法兼顾视觉推理、理解等通用能力；(c) 多数方法只支持文本条件布局控制，不考虑更难的多参考图像身份保持场景。
核心矛盾：布局控制需要任务特定的分支/编码器，这与"统一"框架的理念相矛盾。如何在不引入额外架构模块的情况下实现精确布局控制？
本文要解决什么？ 在统一多模态框架中同时支持：布局接地文本到图像生成、多参考身份一致的多实例合成、通用多模态理解——三者共用一个模型。
切入角度：布局本质上是一种可以用语言表达的信息。与其设计专门的空间编码器，不如把坐标编码为文本token，让Transformer通过语言理解自然学习空间接地。
核心idea一句话：语言即布局控制——将坐标嵌入prompt，让统一模型通过文本流学习空间布局，无需任何架构改动。

方法详解¶

整体框架¶

基于Bagel的MoT（Mixture of Transformers）架构，包含理解和生成两个Transformer专家。输入是带有坐标标注的文本prompt + 可选的参考图像，输出是满足布局约束的多实例图像。三大组件：(1) LELG范式将布局语义编码为文本token；(2) Coordinate-CFG在采样时增强空间控制；(3) ConsistCompose3M提供训练数据。

关键设计¶

LELG范式 + 实例-坐标绑定Prompt (ICBP):
做什么：将每个实例的bounding box直接插入其对应主语短语之后，形成统一的文本序列
核心思路：对第 \(i\) 个实例，归一化bbox \(b_i = (x_1^i, y_1^i, x_2^i, y_2^i) \in [0,1]^4\) 用三位小数表示插入文本："a brown sofa [0.123, 0.456, 0.789, 0.901]"。这样坐标成为语言token的一部分，Transformer通过共享的self-attention自然学习实例-位置绑定。
设计动机：(1) 零架构改动——不需要布局编码器、ControlNet或额外attention模块；(2) 天然统一——理解和生成共享同一个token空间，空间推理能力可以从理解任务迁移到生成；(3) 三位小数的离散化将连续空间映射到约1000³个离散位置，精度足够且与tokenizer兼容。
与之前方法的区别：GLIGEN需要gated Transformer层，InstanceDiffusion需要多模态融合模块，CreatiLayout需要SiamLayout——都是架构层面的改动。LELG纯粹在输入层面解决问题。
坐标感知Classifier-Free Guidance (Coordinate-CFG):
做什么：在推理采样时，通过比较有/无坐标条件的预测速度差来增强空间控制
核心思路：\(\mathbf{v}_t^{\text{coord-cfg}} = \mathbf{v}_t^{\text{uncond}} + s_{\text{coord}}(\mathbf{v}_t^{\text{coord}} - \mathbf{v}_t^{\text{uncond}})\)，\(s_{\text{coord}}\) 控制空间引导强度。还引入了速度归一化 \(\alpha = \|\mathbf{v}_t^{\text{base}}\| / \|\mathbf{v}_t^{\text{coord-cfg}}\|\) 防止引导幅度爆炸。
设计动机：ICBP提供了空间信号，但模型可能不够"服从"。Coordinate-CFG类似于文本CFG的空间版本，显式放大坐标条件与无条件之间的差异，迫使生成更精确地遵循布局。实验显示增大 \(s_{\text{coord}}\) 逐步提升位置准确性，过大时略微影响感知质量。
ConsistCompose3M数据集:
做什么：提供340万样本的布局+身份监督训练数据
核心思路：两个子集——(a) T2I子集 (260万)：重新处理LayoutSAM数据，为每个实例用ICBP机制附加bbox坐标到caption中；(b) 参考条件子集 (80万)：复用Subjects200K和UNO的主体素材，在不同布局下重组为多主体场景，用CLIP/DINO相似度过滤保证身份一致性。
设计动机：之前没有兼具布局标注和身份标注的大规模多实例生成数据集。缺乏数据是布局控制生成进展缓慢的重要原因。

训练策略¶

两阶段训练：先做对齐阶段（混合通用理解数据+ConsistCompose3M注入布局意识），再做混合SFT阶段（联合训练理解/生成/编辑/多主体参考生成+ConsistCompose3M）
训练目标：Flow Matching损失 \(\mathcal{L}_{\text{FM}}\) + 语言模型损失 \(\mathcal{L}_{\text{LM}}\) 的加权组合，无额外坐标回归损失——空间接地完全从语言流中隐式学习
高分辨率微调：进一步平衡布局控制和通用图像生成性能

实验关键数据¶

主实验（COCO-Position）¶

方法	Instance Success Avg↑	Image Success Avg↑	mIoU↑	AP↑	AP50↑	AP75↑
GLIGEN	82.6	52.1	69.0	40.5	75.9	39.1
InstanceDiffusion	87.8	65.5	78.1	57.2	83.6	65.5
MIGC++	86.8	63.4	74.9	48.3	79.2	52.6
CreatiLayout	74.0	42.5	64.9	32.4	61.1	31.6
PlanGen	82.5	50.3	66.2	31.9	74.0	21.5
ConsistCompose	92.6	76.1	85.3	70.9	89.1	76.9

相比最强基线InstanceDiffusion：布局mIoU +7.2%，AP +13.7%，Image Success Avg +10.6%

训练阶段消融¶

阶段	Instance Success Avg	mIoU	AP
Alignment only	88.4	79.1	58.3
+ Hybrid SFT	92.6	85.3	70.9

关键发现¶

LELG有效性：仅通过语言嵌入坐标（无额外架构），布局准确性即大幅超越所有专门设计的基线
通用能力保持：在MMMU和MMBench上与Bagel backbone持平，说明布局控制训练不会损害通用理解
Coordinate-CFG的作用：\(s_{\text{coord}}\) 从1到3逐步提升位置精度，存在最优点（过大会略损质量）
两阶段训练必要：Hybrid SFT阶段在Alignment基础上进一步提升AP 12.6%

亮点与洞察¶

LELG范式的简洁性令人印象深刻：将"布局控制"这个看似需要专门模块的问题，化简为"在prompt中插入坐标"——零架构改动实现SOTA布局精度。这个设计思路暗示了一个更大的insight：很多看似需要专门模块的条件控制（深度、边缘、关键点），都可能被统一为语言接口的一部分。
Coordinate-CFG巧妙地将CFG从"语义引导"扩展到"空间引导"，且独立于文本CFG工作，可以叠加使用。这个设计可以迁移到任何支持CFG的生成模型中。
数据集构建策略值得借鉴：通过重新处理已有数据（LayoutSAM→T2I, Subjects200K→参考条件）构建新用途的数据集，高效利用已有资源。

局限性 / 可改进方向¶

三位小数的坐标离散化在高分辨率场景下可能精度不足（约0.1%图像宽度的误差）
当前只支持bounding box级别的布局控制，不支持更细粒度的mask、关键点或深度条件
依赖Bagel作为backbone，受限于其基础生成质量和训练规模
需要专门构建ConsistCompose3M数据集，数据准备成本不低
多实例场景中实例数较多时（如>6个），性能可能下降（COCO-Position测试最多6个实例）

评分¶

新颖性: ⭐⭐⭐⭐⭐ LELG范式是布局控制生成的范式创新，用语言接口统一空间控制
实验充分度: ⭐⭐⭐⭐⭐ COCO-Position、MS-Bench、GenEval、MMMU、MMBench全面评估
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，技术细节充分
价值: ⭐⭐⭐⭐⭐ 为统一多模态模型的布局控制提供了简洁有效的解决方案