Garments2Look: 首个大规模 Outfit 级虚拟试穿数据集¶

日期: 2026-03-14
arXiv: 2603.14153
代码: Garments2Look
领域: 图像生成 / 虚拟试穿
关键词: virtual try-on, outfit-level, multi-reference, dataset, fashion AI

一句话总结¶

构建首个 outfit 级虚拟试穿数据集 Garments2Look（80K 穿搭对、40+ 大类 300+ 子类、平均 4.48 参考图），benchmark 揭示 VTON 专用方法在 outfit 级表现极差（FastFit Layering 仅 0.131），通用编辑模型 Nano Banana 全面更优（Garment 0.925、Layering 0.885），结构化文本标注使 FID 降低 7.4%。

研究背景与动机¶

领域现状: 虚拟试穿在单件级效果已较好（VITON-HD 1024×768），但真实时尚需求以完整穿搭为中心，包含叠穿、配饰等
数据集缺陷: VITON-HD 仅 1 类单件，DressCode 仅 3 类，所有数据集均缺乏叠穿顺序和造型技巧标注
技术挑战: Outfit 级 VTON 涉及多件叠穿（1-5 层）、遮挡关系、配饰搭配和非标准穿法（解扣/卷袖/塞裤）
本文切入: 构建首个 outfit 级多参考 VTON 数据集 + VLM 评估协议，65 种风格知识库 + LLM 生成 + Gemini 筛选 + 13 位专家审核

方法详解¶

整体框架¶

四阶段 pipeline：穿搭列表构建（风格知识库+LLM）→ 商品检索匹配（重加权采样保证长尾覆盖）→ Look 图像合成（Nano Banana）→ 质量筛选（自动+人工，约 40% 通过率）

关键设计¶

穿搭知识库: 65 种时尚风格（35 女/30 男），LLM 基于随机风格生成 3-9 件穿搭清单含叠穿顺序约束，最多 3 层上装叠穿
商品检索与合成: 每件物品检索 top-128 候选，重加权采样确保长尾覆盖；Nano Banana（Gemini-2.5-Flash-Image）基于 OOTD 网格图+结构化 prompt 合成穿搭图
多维质量保证: Gemini-2.5-Flash + DWPose 自动筛选，13 位专家 Likert 5 分评审（Garment 4.74±0.28、Layering 4.35±0.62、Styling 4.58±0.45）

实验关键数据¶

数据集统计¶

统计项	数值
穿搭对数	80,041
大类/子类	40+ / 300+
平均参考图/对	4.48（3-12 张）
叠穿层数	1-5 层
专家评审	Garment 4.74, Layering 4.35, Styling 4.58

主实验（Garments2Look 测试集）¶

方法	类型	FID↓	KID↓	Garment↑	Layering↑	Styling↑
FastFit	VTON	3.59	4.58	0.624	0.131	0.340
OmniTry	VTON	6.56	10.07	0.461	0.167	0.261
BootComp	VTON	8.63	8.91	0.537	0.313	0.355
GPT-4o (2 Ref)	Edit	2.15	1.42	0.892	0.849	0.694
NB (2 Ref)	Edit	1.04	0.25	0.925	0.885	0.739
NBP (N Ref)	Edit	1.32	0.40	0.984	0.936	0.736

消融实验（文本引导粒度，Nano Banana）¶

文本输入	FID↓	KID↓	SSIM↑	LPIPS↓
仅类别名	23.27	1.27	0.817	0.141
+ 叠穿/造型描述	21.83	0.73	0.814	0.148
+ 体型/姿势信息	21.78	0.75	0.823	0.133
全部信息	21.55	0.64	0.825	0.131

关键发现¶

VTON 模型传统指标尚可（FastFit SSIM 0.855），但 outfit 语义指标极差（Layering 0.131）
通用编辑模型全面优于 VTON：NBP Garment 达 0.984，Layering 达 0.936
2-Ref 策略优于 N-Ref：NB Garment 从 0.805→0.925，整体穿搭参考优于多张单品参考
结构化文本有效：FID 从 23.27→21.55（↓7.4%），KID 从 1.27→0.64（↓49.6%）
参考件数超 4 件时 VTON 模型性能骤降，编辑模型更鲁棒

亮点与洞察¶

从单件到穿搭级是 VTON 重要升级方向，首次提供 80K 级标准化数据和 VLM 评估协议
2-Ref 策略效果优于 N-Ref，暗示模型更擅长理解整体搭配语义而非拼凑单品信息
LLM+时尚知识库驱动的合成 pipeline 具备可推广性，可用于其他时尚 AI 数据集构建

局限性 / 可改进方向¶

合成数据依赖 Nano Banana/Gemini 质量，可能引入系统性偏差（姿势单一、风格趋同）
造型技巧（tucked/unbuttoned/rolled）精细控制是开放问题——模型仍倾向生成标准穿法
缺乏专门在 outfit 级任务上训练的 VTON 方法，现有 baseline 均为迁移适配

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模 outfit 级 VTON 数据集，VLM 评估协议新颖
实验充分度: ⭐⭐⭐⭐ 11 种方法 × 7 指标 + 文本消融 + 专家评审
写作质量: ⭐⭐⭐⭐ Q1-Q4 问题驱动分析清晰，数据统计详实
价值: ⭐⭐⭐⭐⭐ 推动 VTON 走向真实时尚场景，开源数据集+协议价值极高