DiffSim: Taming Diffusion Models for Evaluating Visual Similarity¶

会议: ICCV 2025
arXiv: 2412.14580
代码: https://github.com/showlab/DiffSim
领域: Image Generation / Visual Similarity
关键词: 扩散模型, 视觉相似度, 注意力对齐, 感知指标, 风格相似度

一句话总结¶

DiffSim 首次发现预训练扩散模型（Stable Diffusion）的注意力层特征可用于测量视觉相似度，提出 Aligned Attention Score (AAS) 在 U-Net 的 self-attention / cross-attention 层中对齐两张图像特征后计算余弦相似度，在人类感知一致性、风格相似度和实例一致性等多个 benchmark 上达到 SOTA。

研究背景与动机¶

定制化生成（custom generation）的兴起使得评估生成图像与参考图像的相似性越来越重要
传统感知指标（LPIPS、SSIM等）主要在像素/patch层面比较低级颜色和纹理，无法捕捉布局、姿态、语义内容等中高层相似性
CLIP / DINO虽常用于语义相似度度量，但将图像高度压缩为 \(1 \times 768\) 维特征向量计算余弦相似度，丢失了大量外观细节
DreamSim 等方法通过在人工标注数据上训练来对齐人类偏好，但域外泛化能力有限
关键洞察：
- ReferenceNet 等方法证明 U-Net self-attention 层特征能维持外观一致性
- Custom Diffusion 证明 cross-attention 的 to_K / to_V 矩阵对学习概念至关重要
- IP-Adapter 证明将 IP token 注入 cross-attention 可实现一致性生成
- → 这些层的特征本身就编码了视觉外观信息，可直接用于相似度评估

方法详解¶

整体框架¶

DiffSim 提出两种实现方式： 1. DiffSim-S：利用 self-attention 层进行特征对齐和相似度计算 2. DiffSim-C：利用 IP-Adapter Plus 在 cross-attention 层进行特征对齐

两者的核心都是 Aligned Attention Score (AAS)。

关键设计¶

Aligned Attention Score (AAS)：
- 传统方法假设特征像素对齐，但实际中风格/姿态差异使这一假设失效
- AAS 利用注意力机制实现隐式对齐： \(\text{AAS}(L_A, L_B) = \cos(\text{attn}(Q_A, K_A, V_A), \text{attn}(Q_A, K_B, V_B))\)
- 即：用图像A的 Query 对图像B的 Key/Value 做注意力，再与图像A自注意力的输出计算余弦相似度
- 双向对称计算：\(\text{Similarity}(L_A, L_B) = \text{AAS}(L_A, L_B) + \text{AAS}(L_B, L_A)\)
- 每张图像都既作为 query 又作为 key，保证了度量的完整性
DiffSim-S（Self-Attention 版本）：
- 将两张图像加噪至时间步 \(t\)，送入 U-Net 的第 \(n\) 个 self-attention 层
- 提取两个图像的潜表示 \(z_{t,\text{self},n}^A\) 和 \(z_{t,\text{self},n}^B\)
- 在该层的 self-attention 中计算 AAS
- 浅层+高噪声时间步适合评估低级/风格相似度，深层+低噪声时间步适合评估语义相似度
- 通过简单调整 layer 和 timestep 即可实现不同粒度的相似度度量
DiffSim-C（Cross-Attention 版本）：
- 使用 IP-Adapter Plus 从 CLIP 图像编码器提取 patch 级特征，注入 U-Net cross-attention
- 交换两张图像在 IP-Adapter 和 U-Net 中的角色
- 在 cross-attention 层计算 AAS
- 特别适合实例级相似度评估（如 CUTE 数据集）
AAS 对 CLIP / DINO 的扩展：
- AAS 不限于扩散模型，也可应用于 CLIP 和 DINOv2 的 self-attention 层
- 衍生出 CLIP AAS 和 DINO v2 AAS，在部分任务上显著提升原始模型性能
- 尤其在低级相似度（TID2013）和风格相似度（Sref）上提升明显

损失函数 / 训练策略¶

DiffSim 是 完全无监督的，不需要任何微调或训练。预训练的 Stable Diffusion 1.5 直接使用，仅通过选择合适的 layer 和 timestep 配置即可适配不同任务。

实验关键数据¶

主实验 (表格)¶

模型	NIGHTS	Dreambench++	CUTE	IP	TID2013	Sref	InstantStyle
LPIPS	71.13%	62.33%	63.17%	84.01%	94.50%	87.85%	93.15%
CLIP	82.26%	70.54%	72.71%	91.70%	90.33%	84.60%	82.90%
DINOv2	85.24%	72.25%	77.27%	85.35%	91.50%	87.20%	86.10%
CLIP AAS	82.18%	67.23%	71.78%	88.03%	96.33%	94.45%	97.80%
DINO v2 AAS	86.47%	70.01%	77.04%	90.38%	95.83%	95.90%	96.65%
DiffSim	86.52%	71.50%	76.17%	91.84%	94.17%	97.40%	99.05%
Ensemble	89.43%	72.15%	77.78%	94.92%	95.00%	91.70%	88.30%

DiffSim 在人类感知一致性（NIGHTS）、实例相似度（IP）、风格相似度（Sref、InstantStyle）上均达到最佳。

消融实验 (表格)¶

设置	Sref	IP	NIGHTS
DiffSim (AAS)	97.40%	92.04%	86.82%
Diffusion feature (无AAS)	78.80%	62.47%	66.75%
CLIP AAS	71.15%	87.36%	80.54%
CLIP features (无AAS)	66.50%	82.54%	75.84%
DINO v2 AAS	78.50%	90.38%	86.41%
DINO v2 feature (无AAS)	76.90%	87.56%	81.00%

AAS 是核心：去掉 AAS 后，直接用扩散模型特征计算余弦相似度，Sref 从 97.4% 暴降到 78.8%。AAS 对所有模型（CLIP、DINO、Diffusion）都带来显著提升。

关键发现¶

时间步影响：高 \(t\)（~900）适合风格评估，低 \(t\)（~500）适合语义/实例评估
层选择影响：U-Net 中部层（Down2、Up0）关注实例级，浅层（Down0、Up1）关注风格
分辨率影响：512→768 对高分辨率原始图像略有提升，但默认 512 已足够
架构对比：DiffSim-S SD1.5 整体最优，DiffSim-C 在 CUTE 上略好
Ensemble 有效：CLIP + DINO v2 + DiffSim 的硬投票提升了多个 benchmark

亮点与洞察¶

首次将扩散模型用于图像相似度评估，开辟了新方向
AAS 设计优雅：通过交换 Q/K/V 实现隐式对齐，避免了显式的特征对齐步骤，且可推广到任意基于注意力的架构
无需训练、无需标注是极大的实用优势，即插即用
多粒度相似度：仅通过调整 layer + timestep 即可覆盖从低级到高级的相似度需求
AAS 对 CLIP/DINO 的增强 是一个额外贡献，证明 AAS 的通用性
新提出的 Sref bench（508种风格，由人类艺术家挑选）和 IP bench（299个IP角色）弥补了评估空白

局限与展望¶

背景过度关注：DiffSim 有时过度强调背景特征，忽略小目标的关键细节（如小猫图像检索出了背景相似的狗图像）。裁剪前景可缓解
基于 SD1.5，迁移到更新的扩散模型（SDXL、SD3、Flux）可能进一步提升
推理速度较慢（需要前向扩散+U-Net推理），不如CLIP/DINO轻量
layer 和 timestep 的最优选择需要网格搜索，不够自动化
对于非常抽象的语义相似度，CLIP 可能仍有优势

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次发现扩散模型的注意力层可直接用于相似度评估，AAS 设计简洁高效
实验充分度: ⭐⭐⭐⭐⭐ — 7个benchmark、多种baseline、详细消融、新数据集、应用扩展
写作质量: ⭐⭐⭐⭐ — 方法分析清晰，实验充分，但部分公式较密集
价值: ⭐⭐⭐⭐⭐ — 开辟新方向，代码开源，两个新benchmark，AAS可推广到其他模型