跳转至

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

会议: ECCV 2024
arXiv: 2404.01197
代码:
领域: 图像生成 / 文本到图像
关键词: 文本到图像, 空间一致性, 数据集构建, 合成标注, 高效微调

一句话总结

系统性调查文本到图像模型的空间关系生成缺陷,发现现有视觉-语言数据集严重缺乏空间描述,据此创建 SPRIGHT 数据集(~600 万张图像重标注空间关系),仅用 <500 张多物体图像微调即在 T2I-CompBench 空间得分上达到 SOTA(0.2133),相比基线提升 41%。

研究背景与动机

问题引入

当前文本到图像扩散模型(Stable Diffusion、DALL-E 3 等)在生成高质量图像方面表现出色,但对文本中描述的空间关系(如"左边/右边""上面/下面")的遵循能力极差。这是所有 T2I 模型变体(不同文本编码器、先验模型、推理策略)的共同瓶颈。

根本原因发现

数据层面:现有视觉-语言数据集中空间关系词汇严重不足。尽管空间介词在日常英语中频繁使用,但在 COCO、LAION 等数据集的标注中极度稀缺: - COCO 标注中 "left" 仅出现在 0.16% 的标注中,"right" 0.47% - LAION 标注中 "left" 0.27%,"above" 仅 0.16%

模型层面:CLIP 文本编码器对空间相反的提示(如 "A above B" vs "B above A")几乎无法区分(余弦相似度 >0.92)。

核心洞察

两个关键发现驱动了本文方法: 1. 空间关系数据的缺乏是 T2I 模型空间能力差的根本原因之一 2. 训练图像中物体数量多的图像对改善空间一致性有决定性作用——更多物体意味着更多空间关系

方法详解

整体框架

三部分工作: 1. 数据集构建:用 LLaVA-1.5-13B 对 ~600 万张图像生成空间聚焦的合成标注(SPRIGHT 数据集) 2. 标准微调:用 SPRIGHT 子集(~15k 图像)微调 Stable Diffusion v2.1 3. 高效微调:发现仅用 <500 张多物体图像即可达到 SOTA

关键设计

1. SPRIGHT 数据集构建

使用 LLaVA-1.5-13B 对四个数据集的图像重新生成空间聚焦的标注: - CC-12M:230 万张(过滤分辨率 <768×768 的图像) - Segment Anything (SA):350 万张(天然包含大量物体) - COCO 验证集:~4 万张 - LAION-Aesthetics:5 万张

效果:SPRIGHT 将 COCO 中 "left" 的出现率从 0.16% 提升到 26.80%,"right" 从 0.47% 到 23.48%,"front" 从 3.39% 到 41.68%。

质量验证(三重评估): - FAITHScore(4 万对,GPT-3.5 分解为原子声明 + LLaVA 验证):整体 88.9%,空间关系 83.6% - GPT-4(V)(444 张,1-10 评分):LAION 均值 7.49,SA 均值 7.36 - 人工标注(3000 张,149 人):正确率 66.57%

2. 标准微调策略

  • 基础模型:Stable Diffusion v2.1
  • 训练集:13,500 张(LAION-Aesthetics 和 SA 各 50%),验证集 1,500 张
  • 每张图配套原始标注 + SPRIGHT 空间标注,训练时 50:50 随机选择
  • 微调 U-Net 和 CLIP 文本编码器(CLIP 前 10k 步冻结),学习率 \(5 \times 10^{-6}\),AdamW,batch=128,共 15k 步

3. 高效微调策略(核心发现)

关键假设:物体数量多的图像天然包含更多空间关系。使用 Recognize Anything 模型自动检测每张图的物体数量,按物体数量分桶训练:

物体数量 <6 <11 11 >11 >18
训练图像数 444 1346 1346 1346 444
空间得分 0.1309 0.1468 0.1667 0.1613 0.2133

结论:仅用 444 张包含 >18 个物体的图像微调即达到 SOTA。

损失函数

标准扩散训练损失(noise prediction),同时微调 U-Net 和 CLIP 文本编码器。

实验关键数据

主实验

标准微调效果(~15k 图像)

方法 OA↑ VISOR(uncond)↑ VISOR(cond)↑ VISOR1↑ VISOR4↑ 空间得分↑ FID↓ CMMD↓
SD 2.1 47.83 30.25 63.24 64.42 4.70 0.1507 21.646 0.703
+SPRIGHT 53.59 36.00 67.16 66.09 9.13 0.1840 14.925 0.494

高效微调 SOTA(<500 图像)

方法 OA↑ VISOR(uncond)↑ VISOR(cond)↑ VISOR1↑ VISOR4↑ 空间得分↑ FID↓ CMMD↓
SD 2.1 47.83 30.25 63.24 64.42 4.70 0.1507 21.646 0.703
+SPRIGHT(<500) 60.68 43.23 71.24 71.78 16.15 0.2133 16.149 0.512

VISOR Benchmark 全面对比

方法 OA↑ VISOR1↑ VISOR4↑
GLIDE 3.36 6.72 0.03
DALLE-2 63.93 73.59 7.49
Attend-and-Excite 42.07 49.29 0.08
Ours (<500) 60.68 71.78 16.15

GenEval Benchmark

方法 Overall Single Object Two Objects Counting Position
SD 2.1 0.50 0.98 0.51 0.44 0.07
SDXL 0.55 0.98 0.74 0.39 0.15
Ours (<500) 0.51 0.99 0.59 0.49 0.11

消融实验

空间标注比例影响

空间标注比例 25% 50% 75% 100%
T2I-CompBench 空间得分↑ 0.154 0.178 0.161 0.140

50% 是最优比例。100% 空间标注反而下降,因为模型会丧失对一般描述的生成能力。

长/短标注影响

模型/设置 长标注 短标注
SD 1.5, w/o CLIP FT 0.0910 0.0708
SD 2.1, w/o CLIP FT 0.1605 0.1420
SD 2.1, w/ CLIP FT 0.1777 0.1230

长标注始终优于短标注。微调 CLIP 对长标注有正面影响,对短标注反而有害。

CLIP 语义理解改善

空间关系 "above" "below" "left of" "right of" "in front of" "behind"
Baseline CLIP 0.9225 0.9259 0.9229 0.9223 0.9231 0.9289
CLIP+SPRIGHT 0.8674 0.8673 0.8658 0.8528 0.8417 0.8713

微调后的 CLIP 能更好区分空间语义差异(余弦相似度降低 = 区分度提高)。

关键发现

  1. 空间词缺乏是根因:现有数据集中空间描述词极度稀缺,SPRIGHT 将空间短语出现率提升 10-100 倍
  2. 物体数量是关键驱动因素:>18 个物体/图的 444 张图训练效果超过 1346 张 <11 物体/图的图(0.2133 vs 0.1468)
  3. 50% 空间标注比例最优:过多空间标注反而损害模型的通用生成能力
  4. CLIP 微调对长标注有效:长标注(~68 tokens)对 CLIP 是分布外数据,微调帮助 CLIP 适应
  5. 注意力图改善:微调后模型能正确将空间词("below"、"right")关注到图像的正确区域
  6. 否定训练初步探索:用否定替代("not left" 代替 "right")有轻微改善但效果有限

亮点与洞察

  • 系统性诊断极有价值:从数据层面定量证明了空间词缺乏是能力不足的根本原因之一
  • <500 张图像微调即 SOTA 的发现极具实用性,揭示了数据质量远比数量重要
  • 物体数量假设新颖且实证性强:更多物体 → 更多空间关系 → 更好的空间学习
  • CLIP 层级激活分析(CKA)揭示了 MLP 和输出注意力投影层在空间理解中的关键作用
  • 全方位的消融(标注比例、长短标注、CLIP 微调、否定训练)为后续研究提供了丰富参考

局限性

  • SPRIGHT 依赖 LLaVA-1.5-13B 生成,存在 LLM 幻觉(人工标注准确率仅 66.57%)
  • 仅在 Stable Diffusion v2.1 上实验,对 SDXL/SD3 等更新模型的迁移效果未知
  • 高效微调策略(>18 物体)的可泛化性待验证——不同领域/风格的效果可能不同
  • 否定理解仍是重大挑战,微调后改善有限
  • 基于 CLIP 文本编码器的固有限制——空间推理能力上限受制于编码器架构

评分

  • 新颖性: ⭐⭐⭐⭐ — 数据视角切入空间一致性问题,物体数量假设新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 多基准、多消融、多分析维度,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 发现驱动的叙事结构清晰,实验设计周密
  • 价值: ⭐⭐⭐⭐⭐ — SPRIGHT 数据集和 <500 图像 SOTA 方法论对社区贡献巨大

相关论文