跳转至

Conjuring Semantic Similarity

会议: ICLR2026
arXiv: 2410.16431
代码: 待确认
领域: 图像生成
关键词: semantic similarity, diffusion model, Jeffreys divergence, SDE, text-to-image

一句话总结

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离,可用 Monte-Carlo 采样直接计算,首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

研究背景与动机

  1. 领域现状:语义相似度传统上通过文本空间测量(Word2Vec、BERT 嵌入、CLIP 等)。Liu et al. (2023) 定义了自回归 LLM 的意义空间为续写分布。
  2. 现有痛点:(a) 文本嵌入方法生成不可解释的向量距离;(b) 没有方法量化文本条件扩散模型所学语义空间的质量;(c) Bender & Koller (2020) 认为仅语言训练不足以捕获语义——需要外部接地。
  3. 核心矛盾:语义相似度应该可解释——但现有方法只给数字不给解释。人类理解语义是通过"想象"场景来比较的,但人无法系统化比较心理图像。
  4. 切入角度:让扩散模型充当"想象力"——两个文本的语义距离 = 它们诱导的图像分布的距离。
  5. 核心idea一句话:文本语义相似度 = 两个文本条件下反向扩散 SDE 的路径测度之间的 Jeffreys 散度,通过 Monte-Carlo 计算。

方法详解

整体框架

给定两个文本 \(y_1, y_2\) 和预训练扩散模型 \(s_\theta\):(1) 从同一噪声出发,分别用 \(y_1\)\(y_2\) 去噪;(2) 在每个时间步计算两个分数函数的差异 \(\|s_\theta(x_t, t|y_1) - s_\theta(x_t, t|y_2)\|_2^2\);(3) 在去噪轨迹上求和并 Monte-Carlo 平均。

关键设计

  1. Jeffreys 散度的 SDE 推导:
  2. 做什么:将分布比较转化为 SDE 路径测度比较
  3. 核心公式:\(d_{\text{ours}}(y_1, y_2) = \mathbb{E}_{t, x \sim \frac{1}{2}p_t(\cdot|y_1) + \frac{1}{2}p_t(\cdot|y_2)} \|s_\theta(x, t|y_1) - s_\theta(x, t|y_2)\|_2^2\)
  4. 使用 Girsanov 定理推导 KL 散度,再对称化为 Jeffreys 散度
  5. 设计动机:直接比较图像分布(如 FID)需要大量采样。SDE 散度可以在去噪过程中逐步计算,效率高且理论严格

  6. Monte-Carlo 采样算法:

  7. \(\mathcal{N}(0,I)\) 采样噪声 → 分别用 \(y_1, y_2\) 去噪 → 在每步计算分数差的 L2 范数 → 平均
  8. 重复 \(k\) 次取平均。设置 \(T=10\) 步即足够

  9. 可解释性:

  10. 副产品:去噪过程产生了可视化——可以观察模型如何将一个概念"变形"为另一个概念(如雪豹→孟加拉虎:斑点→条纹)

实验关键数据

主实验(STS Benchmark, Spearman 相关系数)

方法 STS-B STS12 STS13 STS14 Avg
BERT-CLS 16.5 20.2 30.0 20.1 29.2
BERT-mean 45.4 38.8 58.0 58.0 ~50
SimCSE-BERT 68.4 82.4 74.4 80.9 76.3
CLIP-ViTL14 65.5 67.7 68.5 58.0 67.0
Ours (SD v1.4) ~55 ~50 ~55 ~50 ~53

消融实验

配置 效果 说明
只看初始步 较差 高噪声区分辨力弱
只看最终步 中等 低噪声有信息但不完整
全轨迹(ours) 最优 累积各尺度语义信息
KL vs Jeffreys Jeffreys 更稳定 对称化改善
\(T\) 步数消融 \(T=10\) 即饱和 计算友好

关键发现

  • 零样本方法超过 BERT 编码器:仅用 Stable Diffusion 就能达到与语言模型可比的语义相似度——说明扩散模型确实学到了有意义的语义结构
  • 可解释性是独特优势:不仅给出数值分数,还可视化两个概念的"变形过程"——这是文本嵌入方法无法做到的
  • 首次量化扩散模型的语义对齐:为评估 T2I 模型开辟了新维度——不仅评图像质量,还评语义理解

亮点与洞察

  • "意义 = 唤起的图像分布":将 Wittgenstein 的"意义即使用"从文本扩展到视觉——概念转移
  • Girsanov 定理在 AI 中的优雅应用:将抽象的路径测度距离化简为简单的分数函数差——理论推导优美且实用
  • 可扩展到任何条件生成模型:方法不限于文本-图像,理论上可用于音频-文本、视频-文本等

局限性 / 可改进方向

  • 不如专门训练的嵌入模型:SimCSE-BERT (76.3) vs Ours (~53)——专用模型仍有大优势
  • 计算成本:每对需要多次去噪采样(~2s/步 × 10步 × k次),比嵌入距离慢几个量级
  • 依赖扩散模型质量:SD v1.4 的语义空间有限,更强的模型(如 DALL-E 3)可能效果更好

相关工作与启发

  • vs Liu et al. (2023):他们用 LLM 续写分布定义语义。本文用扩散模型图像分布——从文本空间转向视觉空间
  • vs CLIP score:CLIP 用对齐的文本-图像嵌入。本文直接在扩散过程中测距——更原生、更可解释

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "语义=唤起图像"的定义极具创意,SDE 散度的数学推导优美
  • 实验充分度: ⭐⭐⭐ 在 STS benchmark 上验证充分,但未超越专用模型,应用场景有限
  • 写作质量: ⭐⭐⭐⭐⭐ 概念清晰、推导严谨、可视化令人印象深刻
  • 价值: ⭐⭐⭐⭐ 为评估扩散模型语义空间开辟新方向,更多是概念贡献而非 SOTA