Garments2Look: 首个大规模 Outfit 级虚拟试穿数据集¶
日期: 2026-03-14
arXiv: 2603.14153
代码: Garments2Look
领域: 图像生成 / 虚拟试穿
关键词: virtual try-on, outfit-level, multi-reference, dataset, fashion AI
一句话总结¶
构建首个 outfit 级虚拟试穿数据集 Garments2Look(80K 穿搭对、40+ 大类 300+ 子类、平均 4.48 参考图),benchmark 揭示 VTON 专用方法在 outfit 级表现极差(FastFit Layering 仅 0.131),通用编辑模型 Nano Banana 全面更优(Garment 0.925、Layering 0.885),结构化文本标注使 FID 降低 7.4%。
研究背景与动机¶
- 领域现状: 虚拟试穿在单件级效果已较好(VITON-HD 1024×768),但真实时尚需求以完整穿搭为中心,包含叠穿、配饰等
- 数据集缺陷: VITON-HD 仅 1 类单件,DressCode 仅 3 类,所有数据集均缺乏叠穿顺序和造型技巧标注
- 技术挑战: Outfit 级 VTON 涉及多件叠穿(1-5 层)、遮挡关系、配饰搭配和非标准穿法(解扣/卷袖/塞裤)
- 本文切入: 构建首个 outfit 级多参考 VTON 数据集 + VLM 评估协议,65 种风格知识库 + LLM 生成 + Gemini 筛选 + 13 位专家审核
方法详解¶
整体框架¶
四阶段 pipeline:穿搭列表构建(风格知识库+LLM)→ 商品检索匹配(重加权采样保证长尾覆盖)→ Look 图像合成(Nano Banana)→ 质量筛选(自动+人工,约 40% 通过率)
关键设计¶
- 穿搭知识库: 65 种时尚风格(35 女/30 男),LLM 基于随机风格生成 3-9 件穿搭清单含叠穿顺序约束,最多 3 层上装叠穿
- 商品检索与合成: 每件物品检索 top-128 候选,重加权采样确保长尾覆盖;Nano Banana(Gemini-2.5-Flash-Image)基于 OOTD 网格图+结构化 prompt 合成穿搭图
- 多维质量保证: Gemini-2.5-Flash + DWPose 自动筛选,13 位专家 Likert 5 分评审(Garment 4.74±0.28、Layering 4.35±0.62、Styling 4.58±0.45)
实验关键数据¶
数据集统计¶
| 统计项 | 数值 |
|---|---|
| 穿搭对数 | 80,041 |
| 大类/子类 | 40+ / 300+ |
| 平均参考图/对 | 4.48(3-12 张) |
| 叠穿层数 | 1-5 层 |
| 专家评审 | Garment 4.74, Layering 4.35, Styling 4.58 |
主实验(Garments2Look 测试集)¶
| 方法 | 类型 | FID↓ | KID↓ | Garment↑ | Layering↑ | Styling↑ |
|---|---|---|---|---|---|---|
| FastFit | VTON | 3.59 | 4.58 | 0.624 | 0.131 | 0.340 |
| OmniTry | VTON | 6.56 | 10.07 | 0.461 | 0.167 | 0.261 |
| BootComp | VTON | 8.63 | 8.91 | 0.537 | 0.313 | 0.355 |
| GPT-4o (2 Ref) | Edit | 2.15 | 1.42 | 0.892 | 0.849 | 0.694 |
| NB (2 Ref) | Edit | 1.04 | 0.25 | 0.925 | 0.885 | 0.739 |
| NBP (N Ref) | Edit | 1.32 | 0.40 | 0.984 | 0.936 | 0.736 |
消融实验(文本引导粒度,Nano Banana)¶
| 文本输入 | FID↓ | KID↓ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| 仅类别名 | 23.27 | 1.27 | 0.817 | 0.141 |
| + 叠穿/造型描述 | 21.83 | 0.73 | 0.814 | 0.148 |
| + 体型/姿势信息 | 21.78 | 0.75 | 0.823 | 0.133 |
| 全部信息 | 21.55 | 0.64 | 0.825 | 0.131 |
关键发现¶
- VTON 模型传统指标尚可(FastFit SSIM 0.855),但 outfit 语义指标极差(Layering 0.131)
- 通用编辑模型全面优于 VTON:NBP Garment 达 0.984,Layering 达 0.936
- 2-Ref 策略优于 N-Ref:NB Garment 从 0.805→0.925,整体穿搭参考优于多张单品参考
- 结构化文本有效:FID 从 23.27→21.55(↓7.4%),KID 从 1.27→0.64(↓49.6%)
- 参考件数超 4 件时 VTON 模型性能骤降,编辑模型更鲁棒
亮点与洞察¶
- 从单件到穿搭级是 VTON 重要升级方向,首次提供 80K 级标准化数据和 VLM 评估协议
- 2-Ref 策略效果优于 N-Ref,暗示模型更擅长理解整体搭配语义而非拼凑单品信息
- LLM+时尚知识库驱动的合成 pipeline 具备可推广性,可用于其他时尚 AI 数据集构建
局限性 / 可改进方向¶
- 合成数据依赖 Nano Banana/Gemini 质量,可能引入系统性偏差(姿势单一、风格趋同)
- 造型技巧(tucked/unbuttoned/rolled)精细控制是开放问题——模型仍倾向生成标准穿法
- 缺乏专门在 outfit 级任务上训练的 VTON 方法,现有 baseline 均为迁移适配
相关工作与启发¶
- vs DressCode-MR: 仅 5 类最多 4 参考无叠穿标注;Garments2Look 40+ 类最多 12 参考 1-5 层叠穿
- vs OmniTry: 支持 12 类别但仍为单件级;Garments2Look 首次支持完整穿搭组合
- vs M&M VTO: 仅 2 类且未公开数据;Garments2Look 全开源 80K 对
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模 outfit 级 VTON 数据集,VLM 评估协议新颖
- 实验充分度: ⭐⭐⭐⭐ 11 种方法 × 7 指标 + 文本消融 + 专家评审
- 写作质量: ⭐⭐⭐⭐ Q1-Q4 问题驱动分析清晰,数据统计详实
- 价值: ⭐⭐⭐⭐⭐ 推动 VTON 走向真实时尚场景,开源数据集+协议价值极高