跳转至

Garments2Look: 首个大规模 Outfit 级虚拟试穿数据集

日期: 2026-03-14
arXiv: 2603.14153
代码: Garments2Look
领域: 图像生成 / 虚拟试穿
关键词: virtual try-on, outfit-level, multi-reference, dataset, fashion AI

一句话总结

构建首个 outfit 级虚拟试穿数据集 Garments2Look(80K 穿搭对、40+ 大类 300+ 子类、平均 4.48 参考图),benchmark 揭示 VTON 专用方法在 outfit 级表现极差(FastFit Layering 仅 0.131),通用编辑模型 Nano Banana 全面更优(Garment 0.925、Layering 0.885),结构化文本标注使 FID 降低 7.4%。

研究背景与动机

  1. 领域现状: 虚拟试穿在单件级效果已较好(VITON-HD 1024×768),但真实时尚需求以完整穿搭为中心,包含叠穿、配饰等
  2. 数据集缺陷: VITON-HD 仅 1 类单件,DressCode 仅 3 类,所有数据集均缺乏叠穿顺序和造型技巧标注
  3. 技术挑战: Outfit 级 VTON 涉及多件叠穿(1-5 层)、遮挡关系、配饰搭配和非标准穿法(解扣/卷袖/塞裤)
  4. 本文切入: 构建首个 outfit 级多参考 VTON 数据集 + VLM 评估协议,65 种风格知识库 + LLM 生成 + Gemini 筛选 + 13 位专家审核

方法详解

整体框架

四阶段 pipeline:穿搭列表构建(风格知识库+LLM)→ 商品检索匹配(重加权采样保证长尾覆盖)→ Look 图像合成(Nano Banana)→ 质量筛选(自动+人工,约 40% 通过率)

关键设计

  1. 穿搭知识库: 65 种时尚风格(35 女/30 男),LLM 基于随机风格生成 3-9 件穿搭清单含叠穿顺序约束,最多 3 层上装叠穿
  2. 商品检索与合成: 每件物品检索 top-128 候选,重加权采样确保长尾覆盖;Nano Banana(Gemini-2.5-Flash-Image)基于 OOTD 网格图+结构化 prompt 合成穿搭图
  3. 多维质量保证: Gemini-2.5-Flash + DWPose 自动筛选,13 位专家 Likert 5 分评审(Garment 4.74±0.28、Layering 4.35±0.62、Styling 4.58±0.45)

实验关键数据

数据集统计

统计项 数值
穿搭对数 80,041
大类/子类 40+ / 300+
平均参考图/对 4.48(3-12 张)
叠穿层数 1-5 层
专家评审 Garment 4.74, Layering 4.35, Styling 4.58

主实验(Garments2Look 测试集)

方法 类型 FID↓ KID↓ Garment↑ Layering↑ Styling↑
FastFit VTON 3.59 4.58 0.624 0.131 0.340
OmniTry VTON 6.56 10.07 0.461 0.167 0.261
BootComp VTON 8.63 8.91 0.537 0.313 0.355
GPT-4o (2 Ref) Edit 2.15 1.42 0.892 0.849 0.694
NB (2 Ref) Edit 1.04 0.25 0.925 0.885 0.739
NBP (N Ref) Edit 1.32 0.40 0.984 0.936 0.736

消融实验(文本引导粒度,Nano Banana)

文本输入 FID↓ KID↓ SSIM↑ LPIPS↓
仅类别名 23.27 1.27 0.817 0.141
+ 叠穿/造型描述 21.83 0.73 0.814 0.148
+ 体型/姿势信息 21.78 0.75 0.823 0.133
全部信息 21.55 0.64 0.825 0.131

关键发现

  • VTON 模型传统指标尚可(FastFit SSIM 0.855),但 outfit 语义指标极差(Layering 0.131)
  • 通用编辑模型全面优于 VTON:NBP Garment 达 0.984,Layering 达 0.936
  • 2-Ref 策略优于 N-Ref:NB Garment 从 0.805→0.925,整体穿搭参考优于多张单品参考
  • 结构化文本有效:FID 从 23.27→21.55(↓7.4%),KID 从 1.27→0.64(↓49.6%)
  • 参考件数超 4 件时 VTON 模型性能骤降,编辑模型更鲁棒

亮点与洞察

  • 从单件到穿搭级是 VTON 重要升级方向,首次提供 80K 级标准化数据和 VLM 评估协议
  • 2-Ref 策略效果优于 N-Ref,暗示模型更擅长理解整体搭配语义而非拼凑单品信息
  • LLM+时尚知识库驱动的合成 pipeline 具备可推广性,可用于其他时尚 AI 数据集构建

局限性 / 可改进方向

  • 合成数据依赖 Nano Banana/Gemini 质量,可能引入系统性偏差(姿势单一、风格趋同)
  • 造型技巧(tucked/unbuttoned/rolled)精细控制是开放问题——模型仍倾向生成标准穿法
  • 缺乏专门在 outfit 级任务上训练的 VTON 方法,现有 baseline 均为迁移适配

相关工作与启发

  • vs DressCode-MR: 仅 5 类最多 4 参考无叠穿标注;Garments2Look 40+ 类最多 12 参考 1-5 层叠穿
  • vs OmniTry: 支持 12 类别但仍为单件级;Garments2Look 首次支持完整穿搭组合
  • vs M&M VTO: 仅 2 类且未公开数据;Garments2Look 全开源 80K 对

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模 outfit 级 VTON 数据集,VLM 评估协议新颖
  • 实验充分度: ⭐⭐⭐⭐ 11 种方法 × 7 指标 + 文本消融 + 专家评审
  • 写作质量: ⭐⭐⭐⭐ Q1-Q4 问题驱动分析清晰,数据统计详实
  • 价值: ⭐⭐⭐⭐⭐ 推动 VTON 走向真实时尚场景,开源数据集+协议价值极高