Conjuring Semantic Similarity¶

会议: ICLR2026
arXiv: 2410.16431
代码: 待确认
领域: 图像生成
关键词: semantic similarity, diffusion model, Jeffreys divergence, SDE, text-to-image

一句话总结¶

提出一种基于视觉想象的文本语义相似度度量——通过计算文本条件扩散模型在两个文本提示下诱导的反向 SDE 之间的 Jeffreys 散度来衡量语义距离，可用 Monte-Carlo 采样直接计算，首次量化了扩散模型学到的语义空间与人类标注的对齐程度。

研究背景与动机¶

领域现状：语义相似度传统上通过文本空间测量（Word2Vec、BERT 嵌入、CLIP 等）。Liu et al. (2023) 定义了自回归 LLM 的意义空间为续写分布。
现有痛点：(a) 文本嵌入方法生成不可解释的向量距离；(b) 没有方法量化文本条件扩散模型所学语义空间的质量；(c) Bender & Koller (2020) 认为仅语言训练不足以捕获语义——需要外部接地。
核心矛盾：语义相似度应该可解释——但现有方法只给数字不给解释。人类理解语义是通过"想象"场景来比较的，但人无法系统化比较心理图像。
切入角度：让扩散模型充当"想象力"——两个文本的语义距离 = 它们诱导的图像分布的距离。
核心idea一句话：文本语义相似度 = 两个文本条件下反向扩散 SDE 的路径测度之间的 Jeffreys 散度，通过 Monte-Carlo 计算。

方法详解¶

整体框架¶

给定两个文本 \(y_1, y_2\) 和预训练扩散模型 \(s_\theta\)：(1) 从同一噪声出发，分别用 \(y_1\) 和 \(y_2\) 去噪；(2) 在每个时间步计算两个分数函数的差异 \(\|s_\theta(x_t, t|y_1) - s_\theta(x_t, t|y_2)\|_2^2\)；(3) 在去噪轨迹上求和并 Monte-Carlo 平均。

关键设计¶

Jeffreys 散度的 SDE 推导:
做什么：将分布比较转化为 SDE 路径测度比较
核心公式：\(d_{\text{ours}}(y_1, y_2) = \mathbb{E}_{t, x \sim \frac{1}{2}p_t(\cdot|y_1) + \frac{1}{2}p_t(\cdot|y_2)} \|s_\theta(x, t|y_1) - s_\theta(x, t|y_2)\|_2^2\)
使用 Girsanov 定理推导 KL 散度，再对称化为 Jeffreys 散度
设计动机：直接比较图像分布（如 FID）需要大量采样。SDE 散度可以在去噪过程中逐步计算，效率高且理论严格
Monte-Carlo 采样算法:
从 \(\mathcal{N}(0,I)\) 采样噪声 → 分别用 \(y_1, y_2\) 去噪 → 在每步计算分数差的 L2 范数 → 平均
重复 \(k\) 次取平均。设置 \(T=10\) 步即足够
可解释性:
副产品：去噪过程产生了可视化——可以观察模型如何将一个概念"变形"为另一个概念（如雪豹→孟加拉虎：斑点→条纹）

实验关键数据¶

主实验（STS Benchmark, Spearman 相关系数）¶

方法	STS-B	STS12	STS13	STS14	Avg
BERT-CLS	16.5	20.2	30.0	20.1	29.2
BERT-mean	45.4	38.8	58.0	58.0	~50
SimCSE-BERT	68.4	82.4	74.4	80.9	76.3
CLIP-ViTL14	65.5	67.7	68.5	58.0	67.0
Ours (SD v1.4)	~55	~50	~55	~50	~53

消融实验¶

配置	效果	说明
只看初始步	较差	高噪声区分辨力弱
只看最终步	中等	低噪声有信息但不完整
全轨迹（ours）	最优	累积各尺度语义信息
KL vs Jeffreys	Jeffreys 更稳定	对称化改善
\(T\) 步数消融	\(T=10\) 即饱和	计算友好

关键发现¶

零样本方法超过 BERT 编码器：仅用 Stable Diffusion 就能达到与语言模型可比的语义相似度——说明扩散模型确实学到了有意义的语义结构
可解释性是独特优势：不仅给出数值分数，还可视化两个概念的"变形过程"——这是文本嵌入方法无法做到的
首次量化扩散模型的语义对齐：为评估 T2I 模型开辟了新维度——不仅评图像质量，还评语义理解

亮点与洞察¶

"意义 = 唤起的图像分布"：将 Wittgenstein 的"意义即使用"从文本扩展到视觉——概念转移
Girsanov 定理在 AI 中的优雅应用：将抽象的路径测度距离化简为简单的分数函数差——理论推导优美且实用
可扩展到任何条件生成模型：方法不限于文本-图像，理论上可用于音频-文本、视频-文本等

局限性 / 可改进方向¶

不如专门训练的嵌入模型：SimCSE-BERT (76.3) vs Ours (~53)——专用模型仍有大优势
计算成本：每对需要多次去噪采样（~2s/步 × 10步 × k次），比嵌入距离慢几个量级
依赖扩散模型质量：SD v1.4 的语义空间有限，更强的模型（如 DALL-E 3）可能效果更好

评分¶

新颖性: ⭐⭐⭐⭐⭐ "语义=唤起图像"的定义极具创意，SDE 散度的数学推导优美
实验充分度: ⭐⭐⭐ 在 STS benchmark 上验证充分，但未超越专用模型，应用场景有限
写作质量: ⭐⭐⭐⭐⭐ 概念清晰、推导严谨、可视化令人印象深刻
价值: ⭐⭐⭐⭐ 为评估扩散模型语义空间开辟新方向，更多是概念贡献而非 SOTA