Revelio: Interpreting and Leveraging Semantic Information in Diffusion Models¶

会议: ICCV 2025
arXiv: 2411.16725
代码: GitHub
领域: 扩散模型·表示学习
关键词: 扩散模型可解释性, k-稀疏自编码器, 表示学习, 迁移学习, 单语义特征

一句话总结¶

Revelio 使用 k-稀疏自编码器（k-SAE）揭示扩散模型不同层和时间步中蕴含的单语义（monosemantic）可解释特征，并通过轻量分类器 Diff-C 验证这些特征的迁移学习价值，实现对黑盒扩散模型的深度解读。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：扩散模型在生成高质量图像方面表现卓越，但其内部表示如何编码丰富的视觉语义信息仍不清楚。核心研究问题包括：

不同层和时间步捕获了什么粒度的视觉信息？
不同扩散架构（卷积 UNet vs Transformer DiT）的归纳偏置有何不同？
预训练数据和语言模型条件如何影响表示？

现有的解释方法（如注意力图可视化、PCA）仅基于单张图像分析，缺乏整体性和系统性。

方法详解¶

1. k-稀疏自编码器（k-SAE）¶

对预训练扩散模型的中间特征（空间池化后 \(\mathbf{x} \in \mathbb{R}^d\)）训练 k-SAE：

编码器：\(z = \text{TopK}(W_{enc}(x - b_{pre}) + b_{enc})\)

TopK 激活函数保留前 \(k\) 个最大神经元激活值，其余置零（\(k=32\)）。

解码器：\(\hat{x} = W_{dec} z + b_{pre}\)

损失：\(L_{mse} = \|x - \hat{x}\|_2^2\)

通过分析每个 k-SAE 神经元的最高激活图像，揭示该神经元捕获的语义概念。

2. 扩散分类器（Diff-C）¶

轻量分类器：4 层卷积逐步降采样扩散特征 → 池化 → 全连接层。验证扩散特征的迁移学习有效性。推理速度比 Diffusion Classifier（需完整去噪）快 \(10^4\) 倍。

评估指标¶

标签纯度 \(\sigma_{label}\)：k-SAE 前 1000 个高激活特征中，前 10 张图像类别标签的平均标准差。越低表示特征越具类别区分度
GPT-4o 评估：将激活图像作为多选题输入 GPT-4o，判断语义粒度

实验¶

不同层的信息粒度¶

主实验¶

层	Oxford-IIIT Pet σ↓	Caltech-101 σ↓
bottleneck	9.48	9.35
up_ft0	9.90	15.65
up_ft1	8.59	21.33
up_ft2	9.67	25.61

细粒度任务（Pet 品种分类）：up_ft1 最优，捕获品种级特征
粗粒度任务（Caltech-101 物体分类）：bottleneck 最优，形状信息足够
up_ft2 倾向于捕获高频纹理/像素级信息，迁移性最差

不同时间步的影响¶

消融实验¶

时间步 \(t\)	Pet σ↓ (up_ft1)	Caltech-101 σ↓ (bottleneck)
0	8.99	11.91
25	8.59	9.35
100	8.87	8.72
200	8.94	8.17
500	9.53	16.65

细粒度任务：\(t=25\)（低噪声）最优
粗粒度任务：\(t=200\)（中等噪声）最优，额外噪声可能增强特征泛化性

SD 1.5 vs SD 2.1¶

模型	Pet σ↓
SD 1.5	8.59
SD 2.1	9.67

SD 1.5（使用 CLIP ViT-L/14 文本编码器）在细粒度分类上优于 SD 2.1（使用 OpenCLIP ViT-H）。

DiT 不同 block 的分析¶

Block	Pet σ↓
6	10.18
10	9.44
14	9.05
18	9.55
22	9.84

DiT 中间 block（block 14）捕获最具类别区分度的特征，与 UNet 的 up_ft1 类似。

分类性能¶

在 Oxford-IIIT Pet 上，Diff-C（SD 1.5 up_ft1, \(t=25\)）使用极简架构即可实现有竞争力的分类准确率，推理速度比 Diffusion Classifier 快 4 个数量级。

亮点与洞察¶

k-SAE 首次用于视觉扩散模型的机制性解释，揭示了单语义特征
表示粒度与任务粒度的交互：不同任务应选择不同层和时间步的特征
架构比较的有趣发现：卷积 UNet 和 Transformer DiT 有不同的归纳偏置
扩散模型后期层（up_ft2）更偏向像素重建，迁移性差——与 LLM 后期层类似

局限与展望¶

k-SAE 的解释依赖人工观察，存在主观性
GPT-4o 评估粒度有噪声
Diff-C 需要训练分类器（尽管很轻量），并非真正的零样本
缺少对大规模文生图模型（如 SDXL、Flux）的分析

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	5
写作质量	4
综合	4.2