InstanceAssemble: Layout-Aware Image Generation via Instance Assembling Attention¶
会议: NeurIPS 2025
arXiv: 2509.16691
代码: https://github.com/FireRedTeam/InstanceAssemble
领域: 图像生成 / 布局控制
关键词: layout-to-image, instance assembling attention, DiT, bounding box control, LoRA, DenseLayout benchmark
一句话总结¶
提出InstanceAssemble,通过实例组装注意力机制(instance-assembling attention)实现layout条件的精确控制——支持bbox位置控制和多模态内容控制(文本+视觉内容),作为轻量LoRA模块适配到现有DiT模型,同时提出DenseLayout benchmark(5K图像90K实例)和Layout Grounding Score评估指标。
背景与动机¶
Layout-to-Image(L2I)生成是可控图像生成的重要任务——给定物体的位置(bbox)和描述,在指定位置生成指定物体。现有L2I方法在复杂布局条件下表现次优,且与DiT架构的适配不够灵活。同时缺乏针对密集布局的评估benchmark和精确的评估指标。
核心问题¶
如何在DiT-based T2I模型中高效注入Layout控制,实现精确的位置和内容控制,同时保持与各种风格LoRA的兼容性?
方法详解¶
关键设计¶
-
Instance-Assembling Attention:核心机制——将每个实例的bbox区域对应的attention token进行分组,在组内进行instance-specific的注意力计算。这使得每个实例区域的生成独立受其对应的文本/视觉描述控制,避免不同实例之间的特征串扰。
-
多模态内容控制:不仅支持文本描述控制每个实例的内容(如"红色汽车"),还支持视觉内容控制(如使用参考图像指定物体外观)。这比纯文本描述更精细。
-
轻量LoRA适配:通过LoRA模块注入到现有DiT模型中,不需要全量微调。这使得InstanceAssemble可以与其他风格LoRA兼容——用户可以同时使用布局控制LoRA和风格LoRA。
-
DenseLayout Benchmark + LGS指标:构建了包含5K图像、90K实例的密集布局benchmark。提出Layout Grounding Score (LGS)作为更精确的L2I评估指标——衡量生成的物体是否出现在指定的bbox位置且类别正确。
实验关键数据¶
- 在复杂布局条件下达到SOTA性能
- 与多种风格LoRA兼容
- DenseLayout benchmark提供了更challenging的评估场景
- LGS比现有指标更准确地反映布局控制质量
亮点¶
- Instance-assembling attention优雅地解决了多实例特征串扰问题
- 多模态控制(文本+视觉)使控制更灵活
- LoRA适配保持了与style LoRA生态的兼容性——实用性强
- DenseLayout benchmark和LGS指标为L2I社区提供了更好的评估工具
- 代码和模型开源
局限性 / 可改进方向¶
- 在极密集布局(大量重叠bbox)下性能可能下降
- 仅在DiT架构上验证
- LGS指标的鲁棒性需要更多验证
与相关工作的对比¶
- vs. GLIGEN:GLIGEN也做layout-guided生成但基于UNet;InstanceAssemble基于DiT+LoRA——更现代
- vs. VisualCloze:VisualCloze统一多种图像生成任务;InstanceAssemble专注于精确的layout控制
评分¶
- 新颖性: ⭐⭐⭐⭐ instance-assembling attention和多模态控制组合有新意
- 实验充分度: ⭐⭐⭐⭐ 有新benchmark+新指标+SOTA对比
- 写作质量: ⭐⭐⭐⭐ 方法清晰
- 价值: ⭐⭐⭐⭐ 为DiT时代的Layout-to-Image提供了实用方案