OverLayBench: A Benchmark for Layout-to-Image Generation with Dense Overlaps¶
会议: NeurIPS 2025
arXiv: 2509.19282
代码: https://mlpc-ucsd.github.io/OverLayBench
领域: 图像生成 / 布局生成
关键词: Layout-to-Image, 重叠布局, Amodal Mask, 扩散模型, 基准评测
一句话总结¶
OverLayBench 构建了首个聚焦密集重叠场景的 Layout-to-Image 基准(4052 样本 + OverLayScore 难度指标),揭示 SOTA 方法在复杂重叠下 mIoU 从 71%→54% 急剧退化,提出 Amodal Mask 监督在重叠 IoU 上提升 15.9%。
研究背景与动机¶
- 领域现状:L2I 方法(GLIGEN、InstanceDiffusion、CreatiLayout)在简单布局上效果好,但现有基准 80%+ 集中在低重叠场景。
- 现有痛点:多个物体大面积重叠且语义相似时(如两只同色猫),模型容易合并或丢失实例,但缺乏系统评测。
- 核心矛盾:重叠是真实场景的常态,但现有方法和基准都回避了这个困难场景。
- 本文要解决什么? 量化重叠难度 + 构建分层评测基准 + 探索改善重叠生成的方法。
- 切入角度:OverLayScore = Σ IoU(Bi,Bj)·cos(pi,pj)(空间重叠×语义相似度),用 Amodal Mask 提供完整物体轮廓监督。
- 核心 idea 一句话:OverLayScore 量化重叠难度 + 分层基准 + Amodal Mask 监督提升重叠生成质量。
方法详解¶
整体框架¶
4052 个样本(2052 简单 + 1000 常规 + 1000 复杂),Qwen2.5-VL-32B 标注实例描述和关系。CreatiLayout-AM 在 CreatiLayout 基础上加 amodal mask token/pixel-level loss。
关键设计¶
- OverLayScore 指标: \(\text{Score} = \sum \text{IoU}(B_i,B_j) \cdot \cos(p_i,p_j)\)——空间重叠×语义相似度
- Amodal Mask 监督: \(\mathcal{L} = \mathcal{L}_{LDM} + \lambda\mathcal{L}_{token} + \beta\mathcal{L}_{pixel}\)——用完整物体 mask(含被遮挡部分)监督
- O-mIoU 指标: 仅在重叠区域计算 IoU,更精确评估遮挡处理能力
损失函数 / 训练策略¶
- 基于 FLUX DiT 架构,amodal mask 额外标注
实验关键数据¶
主实验¶
| 方法 | 简单 mIoU | 复杂 mIoU | O-mIoU |
|---|---|---|---|
| CreatiLayout-FLUX | 71.17% | 54% | 49.80% |
| CreatiLayout-AM | — | — | 65.70% (+15.9%) |
关键发现¶
- 所有方法在复杂重叠下急剧退化(71%→54%)
- Amodal mask 监督显著改善重叠区域生成(+15.9% O-mIoU)
- DiT 模型普遍优于 U-Net 模型
亮点与洞察¶
- OverLayScore 将生成难度量化:空间×语义的乘积捕捉了"困难重叠"的本质
- Amodal Mask 是自然的解决方案:告诉模型被遮挡部分也应存在
局限性 / 可改进方向¶
- 仅边界框级重叠评估
- 数据集规模较小(4052 样本)
- 复杂重叠上改善仍有限
相关工作与启发¶
- vs GLIGEN: 固定注意力 mask 在重叠场景下失效
- vs InstanceDiffusion: 实例控制生成但缺乏重叠评测
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个聚焦重叠的 L2I 基准
- 实验充分度: ⭐⭐⭐⭐ 8+ 方法评测 + amodal 消融
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 揭示 L2I 的关键弱点
- 新颖性: ⭐⭐⭐⭐ 新问题+新度量+新基准
- 实验充分度: ⭐⭐⭐⭐ 多模型对比
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ L2I评估重要补充
深入分析¶
- 密集重叠是现有布局生成方法的系统性盲区——OverLayScore填补了评估空白
- OverLayScore与人类感知高度相关,CreatiLayout-AM在密集重叠场景显著优于基线
- 该方法的核心创新在于设计思路的简洁性和有效性
- 实验结果充分验证了核心假设