The Spacetime of Diffusion Models: An Information Geometry Perspective¶

会议: ICLR 2026
arXiv: 2505.17517
代码: GitHub
领域: 扩散模型 / 信息几何 / 理论分析
关键词: 时空几何, Fisher-Rao度量, 拉回几何, 扩散编辑距离, 转移路径采样

一句话总结¶

从信息几何视角提出扩散模型的"时空"概念，证明标准拉回几何在扩散模型中退化为直线，转而引入 Fisher-Rao 度量的时空几何，并导出可实际计算的散度编辑距离（DiffED）和转移路径采样方法。

研究背景与动机¶

理解扩散模型中间噪声状态 \(\mathbf{x}_t\) 的信息演化是一个开放问题：

拉回几何的失败：在生成模型中，通常通过拉回环境度量来研究数据的内在几何。然而在扩散模型中，这一方法存在根本问题

缺乏对中间状态几何结构的理解：现有工作主要聚焦采样和训练，对信息如何在噪声流程中演化缺乏分析

需要原则性的距离和路径概念：现有的图像相似度指标（LPIPS等）缺乏生成过程的几何基础

方法详解¶

1. 拉回几何的退化（核心负面结论）¶

定理：确定性 PF-ODE 解码器 \(\mathbf{x}_T \mapsto \mathbf{x}_0(\mathbf{x}_T)\) 的拉回度量

\[\mathbf{G}_{\text{PB}}(\mathbf{x}_T) = \left(\frac{\partial \mathbf{x}_0}{\partial \mathbf{x}_T}\right)^\top \left(\frac{\partial \mathbf{x}_0}{\partial \mathbf{x}_T}\right)\]

导致所有测地线在数据空间中解码为直线段。

原因：扩散模型中潜在空间和数据空间维度相同，解码器在环境空间中操作，无法捕获数据流形的内在结构。

2. 信息几何的无记忆性问题¶

随机解码器（逆 SDE）的 Fisher-Rao 度量：

\[\mathbf{G}_{\text{IG}}(\mathbf{x}_T) = \mathbb{E}_{\mathbf{x}_0 \sim p(\mathbf{x}_0|\mathbf{x}_T)}[\nabla_{\mathbf{x}_T}\log p(\mathbf{x}_0|\mathbf{x}_T) \nabla_{\mathbf{x}_T}\log p(\mathbf{x}_0|\mathbf{x}_T)^\top]\]

但由于无记忆性：\(p(\mathbf{x}_T|\mathbf{x}_0) \approx p_T(\mathbf{x}_T)\)，Fisher-Rao 度量在 \(\mathbf{x}_T\) 处塌缩为零。

3. 潜在时空¶

核心创新：引入 \((D+1)\) 维时空 \(\mathbf{z} = (\mathbf{x}_t, t) \in \mathbb{R}^D \times (0, T]\)

索引所有噪声水平下的去噪分布族 \(\{p(\mathbf{x}_0|\mathbf{x}_t)\}\)
恢复非退化的几何结构
清洁数据被识别为时空点 \((\mathbf{x}, 0)\)

4. 指数族结构与可计算能量¶

命题：去噪分布形成指数族，时空曲线能量有闭式近似：

\[\mathcal{E}(\boldsymbol{\gamma}) \approx \frac{N-1}{2}\sum_{n=0}^{N-2}(\boldsymbol{\eta}(\mathbf{z}_{n+1}) - \boldsymbol{\eta}(\mathbf{z}_n))^\top(\boldsymbol{\mu}(\mathbf{z}_{n+1}) - \boldsymbol{\mu}(\mathbf{z}_n))\]

其中自然参数和期望参数：

\[\boldsymbol{\eta}(\mathbf{x}_t, t) = \left(\frac{\alpha_t}{\sigma_t^2}\mathbf{x}_t, -\frac{\alpha_t^2}{2\sigma_t^2}\right)\]

\[\boldsymbol{\mu}(\mathbf{x}_t, t) = \left(\mathbb{E}[\mathbf{x}_0|\mathbf{x}_t], \mathbb{E}[\|\mathbf{x}_0\|^2|\mathbf{x}_t]\right)\]

计算方式：通过 Tweedie 公式和 Hutchinson 技巧，仅需单次 Jacobian-向量积（JVP）即可估计。

5. 扩散编辑距离（DiffED）¶

\[\text{DiffED}(\mathbf{x}^a, \mathbf{x}^b) = \ell(\boldsymbol{\gamma})\]

其中 \(\boldsymbol{\gamma}\) 是连接 \((\mathbf{x}^a, 0)\) 和 \((\mathbf{x}^b, 0)\) 的时空测地线。

直觉解释：测地线追踪最小编辑序列——添加足够噪声以忘掉 \(\mathbf{x}^a\) 的特有信息，然后去噪以引入 \(\mathbf{x}^b\) 的特有信息。距离衡量沿路径去噪分布的总变化量。

6. 转移路径采样¶

对于 Boltzmann 分布 \(q(\mathbf{x}) \propto \exp(-U(\mathbf{x}))\)： - 估计两个低能态间的时空测地线 - 使用退火 Langevin 动力学沿测地线采样 - 支持约束变体（低方差路径、区域回避）

实验¶

采样轨迹比较¶

PF-ODE 路径与能量最小化测地线非常相似
测地线在早期采样阶段弯曲稍少

扩散编辑距离¶

性质	结果
与 LPIPS 相关性	~-7%（捕获不同信息）
与 SSIM 相关性	~53%
端点越不相似	中间噪声越强

DiffED 捕获的是结构级编辑成本，而非感知相似度。

转移路径采样（丙氨酸二肽）¶

方法	MaxEnergy↓	能量评估次数↓
MCMC-固定长度	42.54±7.42	1.29B
MCMC-变长	58.11±18.51	21.02M
Doob's Lagrangian	66.24±1.01	38.4M
时空测地线（本文）	37.36±0.60	16M (+16M)
下界	36.42	—

本文方法最接近下界，且能量评估次数少几个数量级。

约束路径¶

生成的路径有效避免高能区域
不像 Doob's Lagrangian 那样坍缩到单一路径

亮点¶

深刻的理论洞察：证明拉回几何在扩散模型中的根本失败
时空概念的优雅性：统一所有噪声水平的几何结构
可计算：利用指数族性质推导无模拟估计器
多领域应用：编辑距离+分子动力学
计算效率：能量估计仅需单次JVP

局限性¶

时空测地线不能作为替代采样方法（需要提前知道端点）
在高维数据上 Hutchinson 估计器可能引入方差
DiffED 的计算成本仍高于简单距离度量
依赖于去噪器的质量（\(\hat{\mathbf{x}}_0\) 的近似误差）
转移路径采样需要已知能量函数

评分¶

创新性: ⭐⭐⭐⭐⭐ — 时空几何概念极具深度和原创性
实用性: ⭐⭐⭐⭐ — DiffED和转移路径有实际价值
实验: ⭐⭐⭐⭐ — 理论验证充分，分子动力学结果强
写作: ⭐⭐⭐⭐⭐ — 理论优雅，表达精准