UniFit: Towards Universal Virtual Try-on with MLLM-Guided Semantic Alignment¶

会议: AAAI 2026
arXiv: 2511.15831
代码: github.com/zwplus/UniFit
领域: 人体理解
关键词: 虚拟试穿, MLLM, 语义对齐, 扩散 Transformer, 自合成训练

一句话总结¶

提出 UniFit，一个由多模态大语言模型（MLLM）驱动的通用虚拟试穿框架，通过 MLLM 引导的语义对齐模块（MGSA）桥接文本指令与参考图像之间的语义鸿沟，并通过两阶段渐进训练+自合成流水线克服复杂场景的数据稀缺问题，首次在单一框架内支持 6 种 VTON 任务。

研究背景与动机¶

问题定义¶

基于图像的虚拟试穿（VTON）旨在合成一个人穿着指定服装的逼真图像。尽管进展显著，但构建一个能灵活处理多样复杂任务的通用 VTON 框架仍是重大挑战。

核心矛盾¶

现有文本指令引导的 VTON 方法面临两个关键限制：

语义鸿沟：文本编码器（如 CLIP 或 T5）提取的抽象文本表示难以精确对应图像中的具体视觉细节（纹理、logo 形状等），导致生成结果保真度低、可控性弱

数据稀缺：公开数据集（如 VITON-HD、DressCode）仅提供单件服装-试穿结果对，缺乏多服装试穿、模特到模特试穿等复杂场景的训练数据

现有方法的功能对比¶

方法	单件试穿	无模特试穿	服装重建	多视角	多服装	模特到模特
AnyFit	✓	-	-	-	✓	-
CatVTON	✓	-	-	-	-	✓
MV-VTON	✓	-	-	✓	-	-
Any2AnyTryon	✓	✓	✓	-	-	-
UniFit	✓	✓	✓	✓	✓	✓

UniFit 是首个在单一框架中支持全部 6 种 VTON 任务的方法。

方法详解¶

整体框架¶

UniFit 由三个核心组件构成：

MGSA 模块（红色）：编码多模态输入为连贯的语义引导
VAE 编码器（蓝色）：从参考图像提取低层视觉特征
DiT（Diffusion Transformer）（灰色）：以语义引导和低层视觉特征为条件生成输出图像

生成流程包含两个并行流： - MGSA 利用 Qwen2-VL 和可学习查询捕获文本指令与参考图像间的语义关系，生成高层语义表示 \(T_q\) - VAE 编码器处理参考图像提取细粒度视觉特征 \(r = \{r_1, \ldots, r_n\}\) - 将 \(T_q\)、噪声潜变量 \(z_t\)、参考 token \(r\) 拼接为 DiT 输入 \([T_q; z_t; r_1; \ldots; r_n]\)

关键设计¶

1. MLLM-Guided Semantic Alignment Module (MGSA)：桥接文本与视觉的语义鸿沟¶

核心思路：直接利用 MLLM（Qwen2-VL-2B-Instruct）联合处理文本指令和视觉输入，而非像现有方法那样分别用文本编码器和图像编码器独立处理。

可学习查询：引入 \(T_q \in \mathbb{R}^{N_q \times D_q}\)（\(N_q = 486\)，\(D_q = 1536\)），附加在 Qwen2-VL 输入序列末尾。通过因果注意力机制，查询从冗长的多模态序列中蒸馏任务相关信号为紧凑表示。

语义对齐损失：将 \(T_q\) 与目标图像的真实视觉表示 \(T_v\)（通过冻结 ViT 提取）对齐：

\[\mathcal{L}_{\text{align}} = -\frac{1}{N_v} \sum_{n=1}^{N_v} \cos(T_{v,n}, \text{MLP}(T_{q,n}))\]

通过 token 级余弦相似度对齐，确保查询表示语义上对应目标输出。

设计动机： - 可学习查询解决了 MLLM 输出序列过长导致的冗余信息和计算开销问题 - 语义对齐损失使 MGSA 学会融合多模态输入，生成对 DiT 有意义的显式引导 - 相比 CLIP/T5 的抽象文本特征，MLLM 能联合理解文本和图像的语义关系

2. Spatial Attention Focusing Loss：引导 DiT 聚焦任务相关区域¶

核心思路：DiT 的交叉注意力往往分散在不相关区域，导致细节退化和视觉伪影。通过显式正则化交叉注意力图，强制模型聚焦关键区域。

计算交叉注意力图 \(AttnMap \in \mathbb{R}^{l_{r_i} \times l_{z_t}}\)，根据任务类型： - 试穿任务：沿参考 token 轴平均，得到输出中心响应图 \(M \in \mathbb{R}^{l_{z_t}}\) - 服装重建任务：沿输出 token 轴平均，得到参考中心响应图 \(M \in \mathbb{R}^{l_{r_i}}\) - 模特到模特：同时计算和监督两种响应图

使用 MSE 损失与真实空间掩码 \(M_{\text{target}}\) 对齐：

\[\mathcal{L}_{\text{focus}} = \frac{1}{N_R \times N_L} \sum_{j=1}^{N_L} \sum_{i=1}^{N_R} \|M_i^j - M_{\text{target},i}\|_2^2\]

设计动机：虽然 MGSA 提供了强大的高层语义引导，但 DiT 的注意力仍可能分散，需要空间层面的显式约束来确保细粒度细节的忠实传递。

3. 两阶段渐进训练 + 自合成流水线：克服复杂场景的数据稀缺¶

Stage I - Base Pretraining： - 在 VITON-HD 和 DressCode 上训练 Base Model，学习三个基础任务（单件试穿、服装重建、无模特试穿） - 每个任务约 59K 训练对，120K 步

Self-Synthesis（自合成）： - 多服装试穿：利用 Base Model 的服装重建能力，从全身图像中提取分离的上装/下装，创建 10K 配对 - 模特到模特试穿：利用无模特试穿能力，合成以现有服装为条件的新人物图像，创建 30K 配对 - 双重筛选：DreamSim 感知相似度 + Qwen2.5-VL-7B-Instruct 一致性检查

Stage II - Joint Finetuning： - 在真实数据 + 合成数据混合数据集上微调 80K 步 - 同时覆盖全部 6 种 VTON 任务

损失函数 / 训练策略¶

总训练目标为三项损失的组合： 1. Flow matching loss：标准生成损失 2. 语义对齐损失 \(\mathcal{L}_{\text{align}}\)：MGSA 查询与目标视觉 token 的余弦对齐 3. 空间注意力聚焦损失 \(\mathcal{L}_{\text{focus}}\)：DiT 交叉注意力图与空间掩码的 MSE

训练细节： - MGSA 基于 Qwen2-VL-2B-Instruct，冻结前 14 层，微调后 14 层 - DiT backbone：StableDiffusion-3.5 Medium - 训练分辨率：\(1024 \times 768\)（大部分任务） - AdamW 优化器，学习率 \(4 \times 10^{-5}\)，梯度裁剪 1.0，batch size 16

实验关键数据¶

主实验¶

服装重建（VITON-HD）：

方法	SSIM ↑	LPIPS ↓	DISTS ↓	FID ↓
TryOffDiff	0.792	0.337	0.227	21.40
Any2AnyTryon	0.762	0.367	0.231	13.57
UniFit	0.775	0.281	0.202	12.58

单件试穿（VITON-HD）：

方法	SSIM ↑	LPIPS ↓	FID ↓	KID ↓
CatVTON	0.888	0.075	9.128	1.130
FitDiT	0.895	0.067	9.326	0.913
Any2AnyTryon	0.839	0.088	8.965	0.981
UniFit	0.883	0.065	8.799	0.702

FID 降低至 8.799（最佳），KID 大幅降低至 0.702，提升明显。

无模特试穿（VITON-HD）：

方法	CLIP-AS ↑	CLIP-I ↑	MP-LPIPS ↓
IMAGDressing-v1	4.96	0.880	0.107
Any2AnyTryon	4.95	0.843	0.127
UniFit	4.91	0.914	0.078

多视角试穿（MVG）：

方法	SSIM ↑	LPIPS ↓	FID ↓	KID ↓
MV-TON	0.930	0.062	37.09	3.23
UniFit	0.935	0.072	35.62	3.85

消融实验¶

（VITON-HD 单件试穿，Stage I Base Model）：

配置	SSIM ↑	LPIPS ↓	FID ↓	KID ↓	说明
w/o MGSA（用 T5 替代）	0.851	0.098	9.133	1.053	全面大幅下降
w/o \(\mathcal{L}_{\text{align}}\)	0.863	0.074	8.937	0.951	对齐损失重要
w/o \(\mathcal{L}_{\text{focus}}\)	0.872	0.069	8.870	0.835	聚焦损失有贡献
完整模型 (Stage I)	0.887	0.071	8.813	0.785	最佳

关键发现¶

MGSA 模块是核心贡献：去掉 MGSA 改用 T5 后，SSIM 从 0.887 降至 0.851，FID 从 8.813 升至 9.133，下降巨大
语义对齐损失关键：没有 \(\mathcal{L}_{\text{align}}\)，SSIM 从 0.887 降至 0.863，说明显式语义对齐对引导质量至关重要
自合成流水线有效：通过 Base Model 自合成数据，使模型能处理训练数据中原本不存在的复杂任务（多服装、模特到模特）
多任务框架效果优异：在 6 种不同任务上都达到 SOTA 或可比性能，证明通用框架的可行性

亮点与洞察¶

MLLM 应用于 VTON 的创新：首次将 MLLM 深度集成到 VTON 框架中，不仅用于理解指令，还用于桥接多模态语义鸿沟
自合成训练策略精妙：利用已训练好的模型生成新任务的训练数据，形成正向循环，巧妙解决了数据稀缺瓶颈
空间注意力聚焦损失：通过显式监督 DiT 的注意力图，解决了注意力分散导致的细节退化问题
Mask-Free 设计：不依赖服装掩码，通过图像修补合成三元组训练样本，更实用

局限与展望¶

wild 场景表现不确定：受限于现有数据集分布（以门店场景为主），极端光照和严重遮挡下可能性能退化
不支持分层试穿：当前无法处理穿着层次（如外套覆盖内衣）
不支持文本可编辑试穿：无法通过文本描述修改服装属性（如"改为红色"）
自合成数据质量：虽有 DreamSim + Qwen2.5-VL 筛选，但合成数据的分布偏差可能限制泛化
计算开销较大：MLLM（Qwen2-VL-2B）+ DiT（SD3.5-Medium）的组合推理成本可能较高

评分¶

新颖性: ⭐⭐⭐⭐ （MLLM + VTON 的融合方式新颖，自合成训练也很有创意）
实验充分度: ⭐⭐⭐⭐⭐ （6 种任务全面评估，多个数据集，完整消融）
写作质量: ⭐⭐⭐⭐ （结构清晰，图示丰富，问题定义清楚）
价值: ⭐⭐⭐⭐⭐ （首个支持 6 种 VTON 任务的通用框架，实用性极高）