GarmentAligner: Text-to-Garment Generation via Retrieval-augmented Multi-level Corrections¶

会议: ECCV 2024
arXiv: 2408.12352
代码: 无
领域: 图像生成
关键词: 服装生成, 扩散模型, 检索增强, 对比学习, 细粒度对齐

一句话总结¶

针对文本到服装图像生成中的细粒度语义错位（组件数量、位置和相互关系），提出 GarmentAligner，通过自动组件提取管线获取空间-数量信息，并结合检索增强对比学习和多级校正损失，实现服装组件的视觉、空间和数量级别的精确对齐。

研究背景与动机¶

文本到服装生成（Text-to-Garment）作为 T2I 的下游任务，在时尚产业有巨大的商业价值。然而，即使最先进的 T2I 模型（如 Midjourney、SDXL）在服装生成方面仍然表现不佳：

核心挑战：

文本语义差异：服装描述具有特定的文字结构和专业修饰词（如"带褶皱的V领"），通用 T2I 模型难以准确理解

组件细粒度对齐困难：服装组件（纽扣、口袋、领子等）具有独特属性和复杂相互关系，现有方法主要关注视觉语义，忽视了组件定位和数量对齐

作者展示了 Midjourney 在服装生成中的典型失败案例： - 纽扣数量不对（描述5个但生成3个或7个） - 口袋位置偏移（应在左胸但出现在右侧） - 组件关系关系混乱（拉链和衣领的连接方式不正确）

关键洞察：需要在多个语义层级上挖掘服装图像和描述中的组件信息，从整体感知到细粒度细节全面提升生成质量。

方法详解¶

整体框架¶

GarmentAligner 基于预训练的潜在扩散模型（SD v2.1），通过检索增强多级校正训练策略进行领域适配。包含三个核心组件：

自动组件提取管线：从服装图像中提取空间和数量信息
检索增强对比学习：通过语义相似性排名构建正负样本对进行对比训练
多级校正损失：从视觉、空间和数量三个角度进行细粒度校正

关键设计¶

1. 自动组件提取管线¶

在 CM-Fashion 数据集基础上，利用开放域检测和分割模型提取组件级信息：

步骤流程： 1. 组件检测：用 GroundingDINO 从服装图像中获取目标组件的 bounding boxes 2. 数量统计：通过计数 bounding boxes 确定每种组件的数量 3. 位置定位：计算 boxes 的几何中心作为组件的空间位置 4. 组件分割：

- 先用服装解析模型进行初步分割
- 再用 SAM 结合 bounding boxes 增强分割（处理初步分割遗漏的组件）

文本增强：将提取的数量和空间信息与原始文本描述对齐，丰富标注

最终产出：每张服装图像配备详细描述 + 组件分割掩码 + 组件位置 + 组件数量。

2. 检索增强对比学习¶

为了弥补服装数据集规模不足的问题，通过检索增强扩展训练样本。

语义相似性排名：对样本对 $(x, y)$，第 $i$ 个组件的相似度分数： $$S(x, y, i) = \frac{1}{|q_i^x - q_i^y| + Jaro(t_i^x, t_i^y)}$$

其中 $q_i$ 为组件数量，$t_i$ 为组件文本描述，$Jaro$ 为 Jaro 字符串距离。

总体相似度跨所有 $k$ 个组件求和并减去全属句相似度的惩罚： $$S(x, y) = \sum_{i=1}^k S(x, y, i) - \alpha \cdot Jaro(t_x, t_y)$$

正负样本构建： - 在 $N$ 个样本的随机子集中按相似度排名检索 - 高相似度 + 高审美/人类偏好分数 → 正样本 - 低相似度 + 低审美/偏好分数 → 负样本 - 每个样本扩展为 $N_p \times N_n$ 个样本对

对比损失： $$\mathcal{L}_{RACL} = \|\hat{x} - x_p\|^2 + 1 - \|\hat{x} - x_n\|^2$$

最小化生成结果与正样本的距离，最大化与负样本的距离。

3. 多级校正损失¶

三种组件级校正损失从不同角度增强细粒度对齐：

视觉校正（Text-Image 一致性）： $$\mathcal{L}_{visual} = \sum_{i=1}^k \frac{1}{CLIPScore(m_i \odot \hat{X}, t_i)}$$

使用组件掩码 $m_i$（来自GT）裁剪生成图像中的组件区域，计算与组件描述 $t_i$ 的 CLIP Score 作为奖励函数。

空间校正（组件位置对齐）： $$\mathcal{L}_{spatial} = \sum_{i=1}^k \sum_{j=1}^l \|a_i^j - I_j(m_i)\|^2$$

从cross-attention中提取组件描述对应的空间注意力图 $A_i$，与GT组件掩码 $m_i$ 进行 MSE 对齐。

数量校正（组件计数对齐）： $$\mathcal{L}_{quantitative} = \sum_{i=1}^k |q_i - \hat{q}_i|$$

使用组件检测器（GroundingDINO）检测生成结果中的组件数量 $\hat{q}_i$，与GT数量 $q_i$ 对比。

损失函数 / 训练策略¶

总损失函数： $$\mathcal{L} = \omega_v \cdot \mathcal{L}_{visual} + \omega_s \cdot \mathcal{L}_{spatial} + \omega_q \cdot \mathcal{L}_{quantitative} + \omega_r \cdot \mathcal{L}_{RACL}$$

训练配置： - 基座模型：SD v2.1 - 预测类型：混合预测（噪声+图像），替代纯噪声预测 - 硬件：8x Tesla V100，batch size 32 - 学习率：$1 \times 10^{-6}$ - 训练时长：40 epochs，约70小时 - 数据集：CM-Fashion（50万张 512×512 服装图像 + 描述）

实验关键数据¶

主实验¶

与多种基线的定量比较（CM-Fashion 数据集）：

方法	FID ↓	CLIPScore ↑	AestheticScore ↑	HPSv2 ↑
DALL·E	13.249	0.6423	4.8592	0.2137
ARMANI	12.336	0.6988	5.3585	0.2237
SD v1.5	9.368	0.8911	5.2807	0.2419
SD v2.1	9.157	0.8818	5.3881	0.2426
DiffCloth	9.201	0.8974	5.3957	0.2440
SDXL	9.091	0.8756	5.4299	0.2450
GarmentAligner	8.735	0.9245	5.8776	0.2648

GarmentAligner 在所有指标上均取得最优，FID 降低至 8.735，CLIPScore 提升至 0.9245。

组件级准确率（1000条描述×100张图像）： - 数量准确率：GarmentAligner 超越其他方法 20~45% - 空间准确率：同样显著领先

用户研究（110位参与者）：GarmentAligner 获得超过 28% 的偏好率。

消融实验¶

各组件的贡献分析：

变体	FID ↓	CLIPScore ↑	AestheticScore ↑	HPSv2 ↑
[V] 视觉校正	8.975	0.9136	5.4081	0.2459
[S] 空间校正	9.143	0.8976	5.4003	0.2447
[C] 数量校正	9.091	0.8840	5.3912	0.2433
[V+S+C] 三种校正	8.924	0.9183	5.4190	0.2462
[R] 检索对比	8.802	0.8984	5.7443	0.2639
[V+S+C+R] 完整	8.735	0.9245	5.8776	0.2648

关键发现¶

检索增强对比学习贡献最大：对 FID、aesthetic score 和 HPSv2 的提升最显著，主要提升图像真实感和整体质量
多级校正主要提升文本-图像一致性：对 CLIPScore 的贡献最显著
各组件互补：检索对比学习提升全局感知，多级校正增强细粒度详细，组合产生叠加效果
数量对齐比空间对齐更难：消融中 [C] 的独立 CLIPScore 最低，说明数量对齐最具挑战性
预测类型改变有效：混合预测（噪声+图像）比纯噪声预测提升了生成质量

亮点与洞察¶

问题定义精准：聚焦于服装组件的"数量+位置+关系"三重对齐，是此前work忽略的细粒度维度
自动化管线可迁移：组件提取管线基于 GroundingDINO + SAM，可应用于任何服装数据集
检索增强解决数据稀缺：通过组件级相似性检索构建正负样本，有效利用有限数据
多损失协同设计：视觉（CLIP反馈）、空间（attention map对齐）、数量（检测计数）三个正交维度的校正，覆盖了服装生成的主要失败模式

局限与展望¶

依赖提取管线精度：组件信息完全依赖 GroundingDINO 和 SAM 的准确性，大规模数据中不可避免存在错误
预训练模型偏见：继承了 SD 模型的固有偏差，可能导致输出缺乏鲁棒性和用户友好性
训练成本：需要8GPU训练70小时，且需要先运行组件提取管线
仅针对单品服装：CM-Fashion 是单品服装数据集，搭配生成或穿搭场景未涉及
数量校正的梯度问题：检测器输出的计数是离散的，梯度传播可能不连续

评分¶

创新性：★★★★☆ — 多级校正+检索对比的组合设计原创性强，组件提取管线实用
实用性：★★★★☆ — 直接解决商业场景的痛点问题，但代码未开源限制了复现
实验充分度：★★★★☆ — 多维度指标+用户研究+详细消融，数量准确率评估新颖
写作质量：★★★★☆ — 结构清晰，可视化对比效果好