OmniVTON: Training-Free Universal Virtual Try-On¶

会议: ICCV2025
arXiv: 2507.15037
代码: GitHub
领域: image_generation
关键词: virtual try-on, training-free, diffusion model, garment warping, pose alignment

一句话总结¶

OmniVTON 提出首个无需训练的通用虚拟试穿框架，通过解耦服装纹理与姿态条件，利用结构化服装变形、连续边界缝合和频谱姿态注入三大模块，在 in-shop 和 in-the-wild 场景中均实现高保真试穿，并首次支持多人试穿。

研究背景与动机¶

问题定义：图像虚拟试穿（VTON）需要将服装图像无缝转移到目标人体上，保持纹理一致性和姿态保真度
现有方法局限：
- 监督式 in-shop 方法（GP-VTON, IDM-VTON 等）依赖配对训练数据，跨域泛化差
- 无监督 in-the-wild 方法（StreetTryOn）受数据分布偏差限制，通用性不足
- 两种范式都需要为特定条件训练专用模型，构建跨类别、跨姿态的大规模数据集不切实际
核心挑战：
细粒度纹理一致性：无训练阶段难以建立服装-人体对齐并保留纹理细节
人体姿态对齐：现有方法依赖关键点或 DensePose 条件，需重新训练跨模态特征融合
动机：需要一个统一的、无需训练的 VTON 框架，能在不同域和场景间泛化

方法详解¶

整体框架¶

OmniVTON 采用两阶段工作流，利用现成的扩散模型（无需任何训练）： 1. 阶段一：通过结构化服装变形（SGM）将目标服装变形对齐到人体，生成服装先验 2. 阶段二：利用服装先验和姿态编码噪声，通过连续边界缝合（CBS）机制逐步修复并完成最终试穿图像

关键设计一：结构化服装变形（SGM）¶

SGM 利用骨架信息和解析图约束服装变形，无需重新训练，适用于不同域。

伪人物图像生成：对于 Shop-to-X 场景（仅有服装图像），通过注意力调制生成伪人物图像。具体地，并行去噪服装条件噪声和人物条件噪声，将后者的 K 和 V 注入前者的自注意力层：

\[f_c = \text{Softmax}\left(\frac{Q_c \cdot [K_c \| K_p]^\top}{\sqrt{d}}\right)[V_c \| V_p]\]

多部件语义对应：利用 OpenPose 的 25 个关键点，将人体划分为 N 个语义区域（以上衣为例：躯干、左右上臂、左右前臂共 5 个），建立目标服装与源人物图像之间的多部件语义对应。用 TAPPS 生成分割图隔离各区域像素。

局部化变换：对每对边界框的角点，用 Levenberg-Marquardt 算法优化单应矩阵 $\mathcal{H}_{o \to p}^i \in \mathbb{R}^{3 \times 3}$，然后执行分段透视变换：

\[\begin{bmatrix} x_o' \\ y_o' \\ 1 \end{bmatrix} = \sum_{i=1}^{5} \mathbb{I}_{\text{Region}_i}(x_o, y_o) H_{o \to p}^i \begin{bmatrix} x_o \\ y_o \\ 1 \end{bmatrix}\]

关键设计二：频谱姿态注入（SPI）¶

DDIM 反演可保留源人物的结构信息，但会引入源服装纹理污染。SPI 利用频域分析解决此问题：

对反演噪声 $z_T^{inv}$ 和随机噪声 $z_T$ 进行 FFT 并中心化
用高斯低通掩模 $G_\tau$ 进行频域加权融合： $$\hat{f}_T = G_\tau \odot f_T^{inv} + (1 - G_\tau) \odot f_T$$
逆 FFT 得到混合初始噪声 $\hat{z}_T$

核心思想：低频保留反演噪声的姿态结构信息，高频替换为随机噪声以消除纹理残留并增强生成灵活性。

关键设计三：连续边界缝合（CBS）¶

SGM 的多区域拼接会产生纹理不连续。CBS 通过双向语义上下文信息改善边界连续性：

从 $I_c$ 路径到 $I_p'$ 路径：查询 $Q_p'$ 匹配目标服装纹理，弥合不连续
从 $I_p'$ 路径到 $I_c$ 路径：增强两条路径注意力图的相似性，抑制不相似值

损失函数¶

OmniVTON 是无需训练的方法，不涉及损失函数设计。所有组件利用预训练扩散模型的推理管道实现。

实验关键数据¶

主实验结果¶

VITON-HD 数据集定量比较（所有 VTON 方法使用 DressCode 预训练模型测试跨数据集泛化）：

方法	年份	FID_u ↓	FID_p ↓	SSIM_p ↑	LPIPS_p ↓
PBE	2023	19.230	17.649	0.784	0.227
AnyDoor	2024	14.830	9.922	0.796	0.164
GP-VTON	2023	51.566	49.196	0.810	0.249
IDM-VTON	2024	23.035	20.460	0.812	0.147
OmniVTON	-	9.621	7.758	0.832	0.145

DressCode 数据集定量比较（跨服装类型适应性测试）：

方法	FID_u ↓	FID_p ↓	SSIM_p ↑	LPIPS_p ↓
CAT-DM	13.678	12.028	0.858	0.125
IDM-VTON	9.685	8.377	0.842	0.138
OmniVTON	6.450	5.335	0.865	0.119

消融实验¶

变体	SGM	CBS	SPI	FID_u ↓	FID_p ↓	SSIM_p ↑	LPIPS_p ↓
Base	-	-	-	18.445	16.878	0.773	0.222
(A)	✓	-	-	13.303	11.475	0.809	0.177
(B)	✓	✓	-	9.799	7.993	0.824	0.158
(C)	✓	-	✓	13.148	10.767	0.813	0.180
OmniVTON	✓	✓	✓	9.621	7.758	0.832	0.145

关键发现¶

SGM 单独即可将 FID_u 从 18.445 降至 13.303，证明无训练服装对齐的有效性
CBS 在 SGM 基础上进一步将 LPIPS 提升 0.019，改善感知质量
SPI 提供显著的 SSIM 和 FID 增益，有效抑制噪声污染并保持结构一致性
在 DressCode 上 FID_u 相比最佳基线提升 33.4%，展现跨服装类型适应能力
在 StreetTryOn 基准的所有四种跨场景设置中均领先，甚至超过在域内数据上训练的 StreetTryOn

亮点与洞察¶

首个无需训练的通用 VTON 框架：将 in-shop 和 in-the-wild 场景统一，消除了为特定条件训练专用模型的需要
解耦策略精妙：将服装纹理保持和姿态对齐解耦为独立模块，避免扩散模型同时处理多个条件时的偏差问题
频域分析的创新应用：SPI 利用潜空间的频谱特性，低频保持姿态结构、高频增强生成灵活性，思路优雅
多人试穿：首次实现多人场景试穿，通过沿空间维度拼接多个服装同时生成伪人物图像
跨域泛化能力强：在 VITON-HD 上使用 DressCode 预训练模型测试，FID 降低 5.209，说明方法不依赖特定域

局限性¶

极端情况下表现受限：高密度人群或目标身体区域极小时，会导致服装对齐失败
多区域拼接仍可能在边界处引入伪影，CBS 并不能完全消除所有不连续
依赖多个预训练模型（OpenPose、TAPPS、扩散模型），推理链较长
无训练方法的推理速度可能较慢，需要逐步去噪和多次注意力调制

评分 ⭐⭐⭐⭐¶

创新度高，首次实现无训练通用 VTON，方法设计合理且各模块有明确消融验证。解耦策略和频域分析思路优雅。实验覆盖多数据集、多场景，定量定性结果均优。多人试穿是有意义的扩展。局限主要在极端场景，整体完成度高。