Conjuring Semantic Similarity¶
会议: ICLR2026
arXiv: 2410.16431
代码: 待确认
领域: 图像生成
关键词: semantic similarity, diffusion model, Jeffreys divergence, SDE, text-to-image
一句话总结¶
提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。
研究背景与动机¶
- 领域现状:语义相似度传统上通过文本空间测量(Word2Vec、BERT 嵌入、CLIP 等)。Liu et al. (2023) 定义了自回归 LLM 的意义空间为续写分布。
- 现有痛点:(a) 文本嵌入方法生成不可解释的向量距离;(b) 没有方法量化文本条件扩散模型所学语义空间的质量;(c) Bender & Koller (2020) 认为仅语言训练不足以捕获语义——需要外部接地。
- 核心矛盾:语义相似度应该可解释——但现有方法只给数字不给解释。人类理解语义是通过"想象"场景来比较的,但人无法系统化比较心理图像。
- 切入角度:让扩散模型充当"想象力"——两个文本的语义距离 = 它们诱导的图像分布的距离。
- 核心idea一句话:文本语义相似度 = 两个文本条件下反向扩散 SDE 的路径测度之间的 Jeffreys 散度,通过 Monte-Carlo 计算。
方法详解¶
整体框架¶
给定两个文本 \(y_1, y_2\) 和预训练扩散模型 \(s_\theta\):(1) 从同一噪声出发,分别用 \(y_1\) 和 \(y_2\) 去噪;(2) 在每个时间步计算两个分数函数的差异 \(\|s_\theta(x_t, t|y_1) - s_\theta(x_t, t|y_2)\|_2^2\);(3) 在去噪轨迹上求和并 Monte-Carlo 平均。
关键设计¶
- Jeffreys 散度的 SDE 推导:
- 做什么:将分布比较转化为 SDE 路径测度比较
- 核心公式:\(d_{\text{ours}}(y_1, y_2) = \mathbb{E}_{t, x \sim \frac{1}{2}p_t(\cdot|y_1) + \frac{1}{2}p_t(\cdot|y_2)} \|s_\theta(x, t|y_1) - s_\theta(x, t|y_2)\|_2^2\)
- 使用 Girsanov 定理推导 KL 散度,再对称化为 Jeffreys 散度
-
设计动机:直接比较图像分布(如 FID)需要大量采样。SDE 散度可以在去噪过程中逐步计算,效率高且理论严格
-
Monte-Carlo 采样算法:
- 从 \(\mathcal{N}(0,I)\) 采样噪声 → 分别用 \(y_1, y_2\) 去噪 → 在每步计算分数差的 L2 范数 → 平均
-
重复 \(k\) 次取平均。设置 \(T=10\) 步即足够
-
可解释性:
- 副产品:去噪过程产生了可视化——可以观察模型如何将一个概念"变形"为另一个概念(如雪豹→孟加拉虎:斑点→条纹)
实验关键数据¶
主实验(STS Benchmark, Spearman 相关系数)¶
| 方法 | STS-B | STS12 | STS13 | STS14 | Avg |
|---|---|---|---|---|---|
| BERT-CLS | 16.5 | 20.2 | 30.0 | 20.1 | 29.2 |
| BERT-mean | 45.4 | 38.8 | 58.0 | 58.0 | ~50 |
| SimCSE-BERT | 68.4 | 82.4 | 74.4 | 80.9 | 76.3 |
| CLIP-ViTL14 | 65.5 | 67.7 | 68.5 | 58.0 | 67.0 |
| Ours (SD v1.4) | ~55 | ~50 | ~55 | ~50 | ~53 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 只看初始步 | 较差 | 高噪声区分辨力弱 |
| 只看最终步 | 中等 | 低噪声有信息但不完整 |
| 全轨迹(ours) | 最优 | 累积各尺度语义信息 |
| KL vs Jeffreys | Jeffreys 更稳定 | 对称化改善 |
| \(T\) 步数消融 | \(T=10\) 即饱和 | 计算友好 |
关键发现¶
- 零样本方法超过 BERT 编码器:仅用 Stable Diffusion 就能达到与语言模型可比的语义相似度——说明扩散模型确实学到了有意义的语义结构
- 可解释性是独特优势:不仅给出数值分数,还可视化两个概念的"变形过程"——这是文本嵌入方法无法做到的
- 首次量化扩散模型的语义对齐:为评估 T2I 模型开辟了新维度——不仅评图像质量,还评语义理解
亮点与洞察¶
- "意义 = 唤起的图像分布":将 Wittgenstein 的"意义即使用"从文本扩展到视觉——概念转移
- Girsanov 定理在 AI 中的优雅应用:将抽象的路径测度距离化简为简单的分数函数差——理论推导优美且实用
- 可扩展到任何条件生成模型:方法不限于文本-图像,理论上可用于音频-文本、视频-文本等
局限性 / 可改进方向¶
- 不如专门训练的嵌入模型:SimCSE-BERT (76.3) vs Ours (~53)——专用模型仍有大优势
- 计算成本:每对需要多次去噪采样(~2s/步 × 10步 × k次),比嵌入距离慢几个量级
- 依赖扩散模型质量:SD v1.4 的语义空间有限,更强的模型(如 DALL-E 3)可能效果更好
相关工作与启发¶
- vs Liu et al. (2023):他们用 LLM 续写分布定义语义。本文用扩散模型图像分布——从文本空间转向视觉空间
- vs CLIP score:CLIP 用对齐的文本-图像嵌入。本文直接在扩散过程中测距——更原生、更可解释
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "语义=唤起图像"的定义极具创意,SDE 散度的数学推导优美
- 实验充分度: ⭐⭐⭐ 在 STS benchmark 上验证充分,但未超越专用模型,应用场景有限
- 写作质量: ⭐⭐⭐⭐⭐ 概念清晰、推导严谨、可视化令人印象深刻
- 价值: ⭐⭐⭐⭐ 为评估扩散模型语义空间开辟新方向,更多是概念贡献而非 SOTA