RefTon: Reference Person Shot Assist Virtual Try-on¶

会议: CVPR 2026
arXiv: 2511.00956
代码: https://github.com/360CVGroup/RefTon
领域: 人体理解
关键词: 虚拟试穿, 参考图像引导, Flux-Kontext, 无遮罩试穿, 扩散模型

一句话总结¶

本文提出 RefTon，一个基于 Flux-Kontext 的人对人虚拟试穿框架，通过引入额外参考图像（其他人穿着目标服装的照片）来提供更准确的服装细节信息，同时通过两阶段训练策略和缩放位置索引机制实现了无需辅助条件（如 DensePose、分割掩码）的端到端试穿，在 VITON-HD 和 DressCode 上达到 SOTA。

研究背景与动机¶

领域现状：虚拟试穿（ViTON）已从 GAN 方法发展到基于扩散模型的方法，后者在服装变形和纹理保真度上有显著进步。
现有痛点：(a) 大量方法依赖复杂外部模型——姿态估计器、人体解析、分割模型等来处理不同条件输入，增加了框架复杂度且掩码质量直接影响最终结果。(b) 更关键的是，仅从"衣服平铺图"无法完整感知服装的样式、纹理和设计细节——比如无法判断一件衣服是绿色透明面料还是浅绿色不透明面料，无法识别蕾丝领口设计。
核心矛盾：在真实购物场景中，用户更关注模特穿着效果而非平铺衣物图。但现有方法不支持"参考模特图"作为额外输入，因为公开数据集中缺乏这类配对数据。
本文目标 (a) 去除对外部模型和辅助条件的依赖 (b) 引入参考图像来更准确地传达服装的穿着效果 (c) 构建包含参考图像的训练数据。
切入角度：利用 Flux-Kontext 强大的图像编辑能力，自动合成不同人穿同一件衣服的参考图像，构建训练数据集。同时改进位置编码以支持多条件多分辨率输入。
核心 idea：通过参考图像（其他人穿着目标服装的照片）为虚拟试穿提供更直观的视觉指导，配合无掩码两阶段训练和缩放位置索引，实现简洁高效的端到端试穿。

方法详解¶

整体框架¶

RefTon 基于 Flux-Kontext 骨干架构。输入包括源人物图像（或遮罩图）、目标服装图像、可选的参考图像。图像经 VAE 编码为潜变量后拼接成序列，通过 DiT（Diffusion Transformer）去噪生成目标图像。训练分两个阶段：第一阶段训练基于掩码的试穿模型（合成非配对数据），第二阶段训练人对人无掩码模型。

关键设计¶

两阶段训练策略:
- 功能：在仅有配对数据的情况下实现人对人直接试穿
- 核心思路：现有数据集只提供 \([\mathbf{c}_i, \mathbf{p}_{i,\mathbf{c}_i}]\)（衣服+穿该衣服的人），但训练人对人模型需要非配对三元组 \([\bar{\mathbf{p}}_{i,\mathbf{c}_j}, \mathbf{c}_i, \mathbf{p}_{i,\mathbf{c}_i}]\)（穿其他衣服的人+目标衣服+穿目标衣服的结果）。阶段一：用 agnostic 图像、DensePose、warp mask 等丰富条件训练掩码试穿模型，然后用它给每个人合成穿不同衣服的图像。阶段二：用合成的非配对图像训练人对人模型，以 50% 概率随机使用 agnostic 图像或合成人物图像作为输入。
- 设计动机：类似 CatVTON 的策略但进一步丰富了条件输入以提高合成图像质量。关键在于阶段一生成足够高质量的非配对数据供阶段二训练。
缩放位置索引（Rescaled Position Index）:
- 功能：支持多类型、多分辨率条件输入的统一处理
- 核心思路：原版 Flux-Kontext 的位置索引为三通道——第一通道用二值标记区分噪声和条件图像，后两通道编码空间坐标。RefTon 将第一通道扩展为离散条件标签（区分 person、garment、reference 等不同输入类型）。对每个条件独立生成位置索引，空间坐标按目标图像与条件图像的分辨率比缩放，保持跨分辨率的空间对齐。
- 设计动机：原版二值设计无法区分多种异构条件输入。独立生成索引的方式比在像素空间拼接画布（如 Any2AnyTryon）更灵活，支持任意数量和分辨率的条件输入。消融实验证明缩放位置索引在 FID 和 KID 上均优于原始方案。
参考图像引导机制:
- 功能：通过额外参考图像传递服装穿着效果的视觉信息
- 核心思路：在训练时以 25% 的概率提供参考图像 \(\mathbf{r}_i\)（其他人穿着目标服装的照片），作为额外条件与 person/garment 图像一起输入模型。参考图像通过独立的位置索引集成。推理时可选择是否提供参考图像。
- 设计动机：平铺服装图像无法展示透明面料、蕾丝细节、服装与人体的交互效果。参考图像弥补了这一信息缺口。实验表明加入参考图像后在所有指标上均有提升（如VITON-HD FID从5.45降至4.69）。
参考图像数据生成流水线:
- 功能：自动构建包含参考图像的训练数据集
- 核心思路：利用 Qwen2.5-VL 描述目标图像中人物外观并生成"相反描述"（不同肤色、发型等），再用 Flux-Kontext 编辑目标图像，将相反描述作为正向 prompt、原始描述作为负向 prompt，生成保持服装不变但改变人物外观的参考图像。非目标服装和动作也从描述库中随机采样以增加多样性。
- 设计动机：三个约束确保参考图像质量——(i) 忠实保留目标服装 (ii) 人物外观与目标不同（防止模型走捷径直接复制）(iii) 非目标服装不同（增加多样性）。用 CLIP 特征去重和 VLM 质量过滤进一步保证数据质量。

损失函数 / 训练策略¶

使用标准 flow matching 损失训练。冻结 Flux-Kontext 的编码器和解码器，仅用 LoRA（rank=64, \(\alpha=128\)）微调 Transformer blocks。单数据集实验：VITON-HD 20k steps / DressCode 48k steps，batch=128，8×H100 GPU。混合数据集（VFR）训练用于增强泛化。

实验关键数据¶

主实验（VITON-HD + DressCode）¶

方法	输入条件	VITON-HD LPIPS↓	SSIM↑	FID↓(paired)	FID↓(unpaired)
CatVTON	Mask	0.057	0.870	5.43	9.02
IDM-VTON	Mask+Pose	0.102	0.870	6.29	-
RefTon	Mask	0.057	0.873	5.45	8.58
RefTon+R	Mask+Ref	0.049	0.879	4.69	8.43
RefTon/MF	无掩码	0.061	0.866	5.98	8.40
RefTon+R/MF	无掩码+Ref	0.053	0.872	5.11	8.32

消融实验¶

设置	VITON-HD FID↓	DressCode FID↓	说明
有掩码，无参考	5.45	3.48	基准
有掩码，有参考	4.69	2.94	参考图显著提升
无掩码，无参考	5.98	3.84	去掉掩码轻微下降
无掩码，有参考	5.11	3.34	参考图弥补了掩码缺失
原版位置索引 (0.5×)	5.29	-	无缩放
缩放位置索引 (0.5×)	5.09	-	缩放后改善

关键发现¶

参考图像一致性提升所有指标：在有掩码设置下，加入参考图像使 VITON-HD paired FID 从 5.45 降至 4.69（↓14%），LPIPS 从 0.057 降至 0.049（↓14%）。DressCode 上 FID 从 3.48 降至 2.94（↓15%）。
无掩码模式依然强劲：即使完全去除 agnostic 掩码，性能仍与需要掩码的基线方法持平或更优（FID 8.40 vs CatVTON 9.02），展示了实际部署的便利性。
跨数据集泛化：在混合 VFR 数据集上训练后，未单独在 VITON-HD/DressCode 上训练也能超越 OOTDiffusion 等基线。
StreetTryOn 跨域评估：在从未训练过的 StreetTryOn 数据集上也取得了 SOTA 的 FID，证明了强泛化能力。
掩码质量问题：消融可视化表明过度裁剪的掩码会丢失人物携带的物品（如手提包），保守掩码会保留不需要的区域。无掩码模式避免了这些问题。

亮点与洞察¶

从人类购物行为出发的参考图像设计：真实用户在网购时确实更关注模特穿着效果而非平铺图片。参考图像捕获了平铺图无法展示的信息——透明材质、蕾丝细节、面料垂坠效果。这个设计直觉精准。
参考数据生成流水线的设计很巧妙——利用 VLM 自动生成外观描述及其反面，配合 Flux-Kontext 进行编辑，在保持目标服装不变的同时改变人物外观和其他服装。三个约束（服装保真、人物不同、服装多样）有效防止了训练时的捷径学习。
统一框架处理多种输入模式：一个模型同时支持有掩码/无掩码 × 有参考/无参考的四种组合，通过条件标签和概率采样优雅实现。

局限与展望¶

参考图像生成依赖 Flux-Kontext 的编辑质量，若编辑模型在某些服装类型上表现不佳，参考图像质量会下降。
仅评估了静态图片试穿，未扩展到视频试穿场景。
LoRA 微调的表达能力可能有限，全参数微调（或更大 rank）是否能进一步提升有待探索。
参考图像在训练时仅以 25% 概率出现，是否存在更优的采样策略未充分研究。
未考虑多视角参考图像的融合。

评分¶

新颖性: ⭐⭐⭐⭐ 参考图像引导的虚拟试穿思路新颖且实用，数据生成流水线设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多设置（掩码/无掩码×参考/无参考）、跨域评估、消融充分
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述详细，图表丰富
价值: ⭐⭐⭐⭐ 解决了虚拟试穿中服装细节信息不足的实际问题，有直接应用价值