Emergence and Evolution of Interpretable Concepts in Diffusion Models¶

基本信息¶

arXiv: 2504.15473
会议: NeurIPS 2025
作者: Berk Tinaz, Zalan Fabian, Mahdi Soltanolkotabi (USC)
机构: University of Southern California
代码: 未开源

一句话总结¶

首次将 Sparse Autoencoders (SAEs) 系统性地应用于多步扩散模型 (Stable Diffusion v1.4)，揭示了图像构图在第一步反向扩散就已涌现、风格概念在中期阶段形成的时间演化规律，并据此设计了时间自适应的因果干预技术。

背景与动机¶

扩散模型虽然在图像生成方面取得了巨大成功，但其内部工作机制仍然是黑箱。Sparse Autoencoders (SAEs) 在 LLM 的机械可解释性中已被证明有效（如 Anthropic 对 Claude 的分析），但尚未被应用于理解扩散模型的多步生成过程中视觉表征如何随时间演化。此前的工作 (Surkov et al.) 仅分析了单步蒸馏扩散模型 (SDXL Turbo)，无法捕捉时间维度的特征演化——而这恰恰是扩散模型最核心的特性。

核心问题¶

图像表征在生成过程的早期阶段已经包含了多少信息？
视觉表征如何在扩散过程的不同阶段演化？
能否利用发现的可解释概念来因果地引导生成过程？
干预效果如何随扩散时间变化？

方法详解¶

1. SAE 架构¶

采用 $k$-sparse autoencoder（TopK 激活），在 SD v1.4 的 U-Net 残差更新上训练： - 编码器：$\mathbf{z} = \text{TopK}(\text{ReLU}(\mathbf{W}_{enc}(\mathbf{x} - \mathbf{b})))$ - 解码器：$\hat{\mathbf{x}} = \mathbf{W}_{dec}\mathbf{z} + \mathbf{b}$ - 概念向量：$\mathbf{f}_i = \mathbf{W}_{dec}[:, i]$（解码器列向量） - 扩展比 $n_f = 4d = 5120$（$d = 1280$）

2. 时间感知的激活收集¶

在 3 个扩散阶段（$t \in \{0.0, 0.5, 1.0\}$）× 3 个 U-Net block（down_block, mid_block, up_block）× 2 种 conditioning（cond/uncond）分别训练独立 SAE。收集的是 cross-attention transformer block 的残差更新 $\Delta_{\ell,t}$。

3. 概念字典构建（Vision-only Pipeline）¶

创新点：不依赖 LLM 做概念标注，而是用纯视觉管线： - RAM (图像标签) → Grounding DINO (开放集检测) → SAM (分割) - 计算 SAE 激活与分割 mask 的 IoU，超过 0.5 则将对应标签分配给该 CID - 每个概念用对应物体名称的 Word2Vec 均值嵌入表示

4. 构图预测¶

利用概念字典创建"概念图"：每个空间位置 → 顶部激活概念 → Word2Vec 嵌入 → 与目标物体的余弦相似度 → 生成分割预测。

5. 因果干预技术¶

空间定向干预（控制构图）： $$\tilde{\Delta}_{\ell,t}[i,j] = \begin{cases} \Delta_{\ell,t}[i,j] + \beta \sum_{c \in C_o} \mathbf{f}_c & \text{if } (i,j) \in S \\ \Delta_{\ell,t}[i,j] - \sum_{c \in C_o} \mathbf{f}_c & \text{otherwise} \end{cases}$$ 直接操作激活而非先编码再解码，避免重建误差。

全局干预（控制风格）：$\tilde{\Delta}_{\ell,t}[i,j] = \Delta_{\ell,t}[i,j] + \beta \mathbf{f}_c$

两种干预都引入了自适应 $\beta$ 归一化以跨物体/风格稳定效果。

实验关键数据¶

构图涌现时间¶

$t=1.0$（第一步）：mid_block IoU ≈ 0.26 — 场景布局已可预测，尽管模型输出仍为纯噪声
$t=0.5$（中期）：IoU 饱和 — 构图已基本固定
$t=0.0$（最终）：IoU 最高，但受限于标注管线精度
up_block 提供最精确的分割预测

概念时间演化定量指标¶

时间步	概念内聚度↑	概念间相似度↓
$t=1.0$	0.588	0.433
$t=0.5$	0.627	0.378
$t=0.0$	0.664	0.344
→ 概念随生成推进变得更纯净、更可区分

干预效果 vs. 扩散阶段¶

阶段	空间干预成功率	全局干预成功率	LPIPS
Early ($t=1.0$)	80%	78% (改构图非风格)	0.653
Middle ($t=0.5$)	23% (失败)	93% (+0.021 ΔCLIP)	0.385
Final ($t=0.0$)	25% (失败)	69% (仅纹理)	0.114

核心发现总结¶

早期：构图可控，风格不可控（全局干预改变的是构图而非风格）
中期：构图已锁定，风格可控（最佳风格编辑窗口）
后期：仅剩纹理细节可变

亮点¶

惊人发现：图像构图在第一步反向扩散（模型输出仍是噪声时）就已涌现
Vision-only 标注管线：避免 LLM 偏差，可扩展到大规模概念发现
时间自适应干预：首次系统性揭示"何时干预什么"的规律
理论洞察深刻：构图→风格→纹理的三阶段演化与 DAE 理论一致
概念向量的因果效应：不仅是相关性分析，干预实验证明因果关系

局限性¶

仅在 SD v1.4 (U-Net) 上验证，未扩展到 DiT 架构 (如 FLUX)
U-Net 的 skip connection 导致干预信息泄漏，需要较大 $\beta$ 值
概念字典依赖外部检测/分割模型质量
不同时间步需训练独立 SAE，无法在时间步间直接比较概念
Word2Vec 嵌入表达能力有限

与相关工作的对比¶

vs. Surkov et al. (SDXL Turbo SAE)：Surkov 仅分析单步蒸馏模型，本文分析多步生成中的时间演化——这是关键差异
vs. Cross-attention 可视化 (DAAM)：DAAM 利用交叉注意力做显著性图，本文的 SAE 概念更细粒度且支持因果干预
vs. h-space/Jacobian 编辑方向：Kwon et al. 和 Park et al. 在特定层发现编辑方向，本文的概念字典更系统、更可解释
vs. Prompt-to-Prompt：P2P 操作注意力权重做编辑，本文从 SAE 潜空间发现概念再操作，两者互补

启发与关联¶

对 DiT 架构的研究方向：DiT 没有 skip connection，可能使干预更有效。未来工作将 SAE 应用于 FLUX/SD3 是自然延伸
与 Don't Let It Fade (TTA-Diffusion) 的关联：两者都研究扩散过程的时间维度——TTA 发现 update forgetting，本文发现构图涌现的时间线。构图在早期固定的发现解释了为何 TTA 的时间步分配策略有效
对可控生成的启示：最佳编辑窗口取决于编辑类型（构图 vs 风格），统一的"全程引导"策略可能不是最优

评分¶

新颖性：★★★★★ — SAE + 扩散模型时间演化是全新视角
技术深度：★★★★☆ — 方法简洁但实验设计精巧
实验完整度：★★★★☆ — 定性定量结合充分，但仅限 SD v1.4
写作质量：★★★★★ — 结构清晰，科学问题驱动

时间步	概念内聚度↑	概念间相似度↓
\(t=1.0\)	0.588	0.433
\(t=0.5\)	0.627	0.378
\(t=0.0\)	0.664	0.344
→ 概念随生成推进变得更纯净、更可区分

阶段	空间干预成功率	全局干预成功率	LPIPS
Early (\(t=1.0\))	80%	78% (改构图非风格)	0.653
Middle (\(t=0.5\))	23% (失败)	93% (+0.021 ΔCLIP)	0.385
Final (\(t=0.0\))	25% (失败)	69% (仅纹理)	0.114