Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback¶

会议: CVPR 2026
arXiv: 2603.13057
代码: GitHub
领域: 图像生成评估 / 虚拟试穿
关键词: 虚拟试穿, 无参考质量评估, 人类反馈对齐, 交错交叉注意力, VTON-QBench

一句话总结¶

构建 VTON-QBench（62,688 张试穿图像、13,838 名合格标注者、431,800 条标注）并提出 VTON-IQA 无参考质量评估框架，通过非对称交错交叉注意力（ICA）模块联合建模服装保真度和人物保持度，实现与人类感知高度对齐的图像级质量预测。

研究背景与动机¶

领域现状：虚拟试穿（VTON）在时尚电商中日益重要，给定人物图像和服装图像合成穿着效果是核心任务。从 GAN 到 U-Net 扩散模型再到 DiT，试穿质量持续提升。

现有痛点：

真实场景中没有 ground-truth 图像（不可能让同一人穿目标服装拍照），SSIM/LPIPS 等有参考指标无法使用
FID/KID 只衡量数据集级分布相似性，无法反映单张图像质量
现有 VTON 专用评估方法（VTONQA、VTBench、VTON-VLLM）要么数据集规模小（748 对）、要么未公开实现、要么缺乏大规模人类验证

核心矛盾：需要单张图像级、无参考、与人类感知对齐的质量评估，但现有工具均不满足。

本文目标 建立大规模人类标注基准 + 训练无参考质量预测模型。

切入角度：试穿质量本质上是两个方面的验证——(1) 服装是否忠实迁移，(2) 非目标区域是否保持。这天然需要跨图像交互建模。

核心 idea：构建大规模人类标注数据集，用非对称交叉注意力显式建模试穿图与服装/人物图的一致性。

方法详解¶

整体框架¶

三分支 Transformer 架构（基于 DINOv3 ViT-L/16），分别处理服装 \(I_G\)、人物 \(I_P\) 和试穿结果 \(I_V\)。前 L/2 层独立提特征，后 L/2 层引入 ICA 模块进行跨图像交互。最终提取三个 [CLS] token，通过可学习加权余弦相似度融合，经 \(\tanh\) 映射到 \([-1, 1]\) 输出质量分数。

关键设计¶

VTON-QBench 数据集构建
- 14 个代表性 VTON 模型（含 GAN/U-Net 扩散/DiT/商业 API）生成 62,688 张试穿图像
- 13,153 对服装-人物对（原始 6,981 对 + FLUX.1-dev LoRA 增广 6,172 对合成对，覆盖休闲/街头/正式/极简/复古风格）
- 13,838 名合格标注者提供 431,800 条三级质量标注（自然/微不自然/不自然）
- 两阶段标注清洗：(1) 5 道答案明确的检验题 + 行为过滤（>80% 相同答案或 >60% 与多数投票不一致者剔除），Krippendorff's α 从 0.286 提升到 0.550；(2) 删除 α ≤ 0.4 的问卷
- 构建伪三元组用 Nano Banana Pro 做强模型生成参考图像，支持有参考指标对比
交错交叉注意力（ICA）模块
- 在标准 Transformer 的 SA 和 MLP 之间插入交叉注意力层
- 非对称交互设计：试穿图 \(V\) 与服装 \(G\) 和人物 \(P\) 双向交互：\(\hat{X}_V^{(\ell)} = \tilde{X}_V^{(\ell)} + C_{V \leftarrow G}^{(\ell)} + C_{V \leftarrow P}^{(\ell)}\)
- 但 \(G\) 和 \(P\) 之间不直接交互，只通过 \(V\) 连接：\(\hat{X}_G^{(\ell)} = \tilde{X}_G^{(\ell)} + C_{G \leftarrow V}^{(\ell)}\)
- 这反映了质量评估以试穿图为中心——需验证 \(V\) 是否保持了 \(G\) 的服装属性和 \(P\) 的非目标要素
评分机制
- 三个 [CLS] token \(c_G, c_P, c_V\)，融合分数 \(\tilde{s} = \alpha \frac{c_G^\top c_V}{\|c_G\|\|c_V\|} + (1-\alpha) \frac{c_P^\top c_V}{\|c_P\|\|c_V\|}\)
- \(\alpha\) 为可学习标量，自适应平衡服装一致性和人物保持度的权重
- 最终 \(\hat{s} = \tanh(a\tilde{s} + b)\)，约束在 \([-1,1]\)

损失函数 / 训练策略¶

联合优化 Bradley-Terry 偏好学习和分数回归：

\[\mathcal{L}_\theta = -q_{ij} \log p_\theta - (1-q_{ij}) \log(1-p_\theta) + \sum_{k \in \{i,j\}} \|\Psi_\theta(I_G, I_P, I_{V_k}) - S_k\|_2^2\]

AdamW，lr=1e-4，batch size 16，早停策略（验证损失 3 epoch 无改善），单卡 A100 40GB，bfloat16 混合精度。

实验关键数据¶

主实验¶

方法	ρ_SRCC	ρ_PLCC	R²	A_macro	A_micro	无参考
SSIM	—	0.135	—	0.596	0.593	✗
LPIPS	—	0.387	—	0.701	0.695	✗
DINOv3 (zero-shot)	—	0.261	—	0.637	0.641	✓
VTON-IQA w/o ICA	0.617	0.615	0.372	0.722	0.747	✓
VTON-IQA	0.750	0.751	0.553	0.781	0.790	✓
人类	0.760	0.762	0.536	0.782	0.791	—

14 个 VTON 模型排名（Dress Code 数据集，VTON-IQA 分数）¶

排名	模型	分数
1	Nano Banana Pro	0.305
2	GPT-Image-1.5	0.237
3	FitDit	0.219
4	IDM-VTON	0.141
...	...	...
13	HR-VITON (GAN)	-0.835
14	VITON-HD (GAN)	-0.933

消融实验¶

配置	ρ_SRCC	A_micro
DINOv3 zero-shot	—	0.641
+ 微调（无 ICA）	0.617	0.747
+ ICA	0.750	0.790

ICA 模块贡献 +21.6% SRCC 提升和 +5.8% 微匹配准确率。

关键发现¶

SSIM/LPIPS 在姿态/缩放变化时严重偏离人类判断；VTON-IQA 对全局变换鲁棒
GPT-Image-1.5 在传统指标中被低估（因零样本模型常改变姿态/缩放），VTON-IQA 正确反映其高质量
人类 vs 模型：成对准确率几乎持平（0.782 vs 0.781），但相关性指标仍有差距
DiT 模型整体优于 U-Net 扩散，GAN 方法大幅落后

亮点与洞察¶

数据集规模惊人：62K 图像、13K 标注者、431K 标注，是目前 VTON 评估领域最大的人类标注数据集
严格的标注质量控制流程（Krippendorff's α 阈值、多阶段清洗）可在其他众包标注项目中复用
ICA 的非对称设计巧妙编码了试穿质量评估的语义结构——以试穿图为中心
14 模型全面基准测试揭示了传统指标与感知质量的系统性偏差

局限与展望¶

仅限于工作室场景的标准试穿，未覆盖野外复杂背景/姿态
只输出标量分数，缺乏可解释的属性级反馈（如"领口不匹配"）
三级标注量表可能过于粗糙，细粒度 5-7 级评分可能更有用
未扩展到视频试穿或 3D 虚拟试穿场景

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义和数据集构建的系统性工作，ICA 设计有新意但不算突破性
实验充分度: ⭐⭐⭐⭐⭐ 14 个 VTON 模型、跨组泛化、人类对比、分类别评估，极其全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建流程描述细致
价值: ⭐⭐⭐⭐⭐ 填补了 VTON 领域缺乏标准化评估基准的空白，有望成为社区标准工具