Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback¶

会议: CVPR 2026
arXiv: 2603.13057
代码: github.com/litelightlite/VTON-IQA
领域: 图像生成 / 虚拟试穿评估
关键词: 虚拟试穿, 图像质量评估, 人类反馈, 无参考评估, 交叉注意力

一句话总结¶

构建了大规模人工标注虚拟试穿质量数据集VTON-QBench（62,688张图像，431,800条标注），并提出VTON-IQA无参考质量评估框架，通过交错交叉注意力模块实现与人类感知高度对齐的图像级质量预测。

背景与动机¶

虚拟试穿(VTON)在时尚电商中越来越重要，但如何可靠评估生成结果的质量仍是关键挑战。现实场景中没有真实穿着的ground-truth图像，使得SSIM/LPIPS等有参考指标无法使用；FID/KID等分布级指标只衡量数据集整体分布相似性，无法反映单张图像的感知质量。现有VTON专用评估方法要么缺乏大规模人类验证，要么数据集规模有限（如VTONQA仅748对），要么没有公开实现。

核心问题¶

如何在没有真实参考图像的情况下，对单张虚拟试穿结果做出与人类感知一致的质量评分？这需要同时考虑服装保真度（颜色、纹理、款式是否准确）和人物保持度（非目标区域如身份、姿态、背景是否保持）。

方法详解¶

整体框架¶

三分支Transformer架构，分别处理服装图像\(I_G\)、人物图像\(I_P\)和试穿结果\(I_V\)。基于DINOv3 ViT-L/16，前半层（12层）独立提特征，后半层（12层）引入交错交叉注意力进行跨图像交互。最终[CLS] token通过余弦相似度加权融合输出质量分数\(\hat{s} \in [-1,1]\)。

关键设计¶

VTON-QBench数据集: 14个代表性VTON模型生成62,688张试穿图像，13,838名合格标注者提供431,800条三级质量标注（自然/微不自然/不自然）。标注经两阶段清洗：(1)答案一致性检查+行为过滤，(2)以Krippendorff's α≤0.4为阈值删除低一致性问卷。还通过FLUX.1-dev+LoRA增广合成服装-人物对，从6,981对扩增到13,153对。
交错交叉注意力(ICA)模块: 在标准Transformer的SA和MLP之间插入交叉注意力层。关键设计是非对称交互：试穿图像\(V\)与服装\(G\)和人物\(P\)双向交互；但\(G\)和\(P\)之间不直接交互，只通过\(V\)连接。这反映了质量评估以试穿图为中心的本质——需要验证\(V\)是否保持了\(G\)的服装属性和\(P\)的非目标要素。
评分机制: 提取三个分支的[CLS] token，用可学习权重\(\alpha\)加权\(\cos(c_G, c_V)\)和\(\cos(c_P, c_V)\)的组合，再经tanh映射到\([-1,1]\)。

损失函数 / 训练策略¶

联合优化Bradley-Terry偏好学习和分数回归： - 偏好损失：对同一人-服装对的两个试穿结果做软标签交叉熵 - 回归损失：预测分数与人类均分的MSE AdamW, lr=1e-4, 早停策略, 单卡A100训练。

实验关键数据¶

方法	ρ_SRCC	ρ_PLCC	R²	A_macro	A_micro
SSIM	-	0.135	-	0.596	0.593
LPIPS	-	0.387	-	0.701	0.695
DINOv3 (zero-shot)	-	0.261	-	0.637	0.641
VTON-IQA w/o ICA	0.617	0.615	0.372	0.722	0.747
VTON-IQA	0.750	0.751	0.553	0.781	0.790

14个VTON模型排名：Nano Banana Pro > GPT-Image-1.5 > FitDit >> 其他。GPT-Image-1.5在SSIM/LPIPS上被严重低估（因姿态/缩放变化），而VTON-IQA正确反映其高质量。

消融实验要点¶

ICA模块贡献显著：加入后SRCC从0.617提升到0.750（+21.6%）
非对称交互设计是关键——\(V\)需要同时参考\(G\)和\(P\)
DINOv3 ViT-L/16优于ViT-B/16，微调后半层最优
泛化性良好：在仅训练半数模型数据的情况下，对未见VTON模型的macro accuracy仅下降3.5%

亮点¶

数据集规模惊人：62K图像、13K标注者、431K标注，是目前VTON评估领域最大的人类标注数据集
严格的标注质量控制流程（Krippendorff's α阈值、多阶段清洗）
ICA模块的非对称设计巧妙地编码了试穿质量评估的语义结构
全面的VTON模型基准测试（14个模型，含商业API如GPT-Image-1.5），揭示了传统指标与感知质量的差距

局限性 / 可改进方向¶

仅限于工作室场景下的标准试穿，未覆盖野外复杂背景/姿态
只输出标量分数，缺乏可解释的属性级反馈
未扩展到视频试穿或3D场景
标注采用三级量表可能过于粗糙，细粒度评分可能更有用

与相关工作的对比¶

VTONQA: 数据集规模小（748对 vs 13,153对），且未公开，本文数据集和代码均将开源
VTBench: 提供多维度诊断框架但不学习统一的质量评估模型
VTON-VLLM: 聚焦文本式批评而非定量预测
本文是首个在大规模人类标注上验证并开源的VTON图像级质量评估框架

启发与关联¶

无参考质量评估的思路可迁移到其他条件生成任务（如图像编辑、风格迁移）的评估
ICA的非对称交互设计可用于任何"验证生成结果是否保持了输入条件"的场景
数据集构建中的大规模众包+质量控制pipeline值得在其他标注项目中借鉴

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义和数据集构建的系统性工作，ICA设计有新意但不算突破性
实验充分度: ⭐⭐⭐⭐⭐ 14个VTON模型、跨组泛化、人类对比、分类别评估，极其全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建流程描述细致，附录信息丰富
价值: ⭐⭐⭐⭐⭐ 填补了VTON领域缺乏标准化评估基准的空白，有望成为社区标准工具