Probability Density Geodesics in Image Diffusion Latent Space¶

会议: CVPR 2025
arXiv: 2504.06675
代码: 无
领域: 扩散模型 / 图像生成
关键词: 概率密度测地线, 扩散模型, 潜在空间, 图像插值, 黎曼几何

一句话总结¶

本文证明了在扩散模型的潜在空间中可以计算基于概率密度的测地线，其中通过高概率密度区域的路径比低密度区域更"短"，并展示了该技术在视频近似性分析、无训练图像序列插值和外推中的应用。

研究背景与动机¶

领域现状：扩散模型（Diffusion Models）是当前最强大的图像生成模型之一，它们通过学习逐步去噪的过程来间接估计数据空间上的概率密度。DDPM、DDIM 等方法已被广泛用于图像生成、编辑和理解。近年来，研究者开始关注扩散模型潜在空间的几何结构，试图利用这些结构进行更可控的生成。

现有痛点：尽管扩散模型隐含地编码了数据分布的概率密度信息，但目前缺乏利用这种几何结构的系统性方法。在潜在空间中做线性插值生成中间图像是常见做法，但线性路径不一定经过高概率区域——可能穿越低密度区域产生不自然的中间结果（如两张人脸之间的线性插值可能经过模糊或失真的图像）。

核心矛盾：线性插值假设潜在空间是平坦的欧几里得空间，但实际的图像流形是弯曲的——某些方向的"距离"应该比其他方向更短（通过常见图像的路径应该比通过罕见图像的路径更短）。需要一种尊重概率密度结构的距离度量。

本文目标：在扩散模型潜在空间中定义和计算基于概率密度的测地线（geodesics），其中内积与概率密度成反比——即高密度区域的路径更短——并展示这种几何结构的实际应用。

切入角度：从黎曼几何出发，在扩散潜在空间中定义一个空间变化的内积（度量），其诱导的范数与概率密度成反比。利用扩散模型的 score function（即概率密度的梯度对数）来计算这个度量，从而将测地线计算与预训练的扩散模型联系起来。

核心 idea：将扩散潜在空间视为配备了概率密度诱导度量的黎曼流形，在其上计算测地线，从而实现"沿着高概率区域走最短路"的图像空间导航。

方法详解¶

整体框架¶

输入：预训练的图像扩散模型（不需要额外训练），以及起点/终点图像（或初始方向）。输出：连接两点的测地线路径上的图像序列，以及路径上的概率密度和测地距离。方法分为三个核心组件：(1) 定义概率密度诱导的黎曼度量；(2) 求解初值问题（IVP）和边值问题（BVP）；(3) 将结果应用于图像分析和生成。

关键设计¶

概率密度诱导的黎曼度量:
- 功能：在扩散潜在空间中定义一个空间变化的内积/距离
- 核心思路：在潜在空间的点 \(x\) 处，定义内积使得诱导的范数与概率密度 \(p(x)\) 成反比：\(\|v\|_x \propto \frac{\|v\|_2}{p(x)}\)。这意味着在高密度区域，移动一步的"代价"低（路径短），而在低密度区域代价高。扩散模型的 score function \(s(x) = \nabla_x \log p(x)\) 提供了计算 \(p(x)\) 所需的梯度信息，因此该度量可以完全从预训练的扩散模型中获取，无需额外训练
- 设计动机：普通欧几里得距离不区分高密度和低密度区域，导致线性插值可能穿越"图像沙漠"。概率密度度量强制路径倾向于经过常见的、自然的图像区域，产生更合理的中间结果
测地线方程的数值求解:
- 功能：在定义好的黎曼度量下求解测地线（最短路径）
- 核心思路：测地线满足一组二阶常微分方程（ODE），即测地线方程。作者提出了两种求解器：(a) 初值问题（IVP）求解器——给定起点和初始方向，通过数值积分（如 Runge-Kutta 方法）沿测地线前进；(b) 边值问题（BVP）求解器——给定起点和终点，通过 shooting method 找到正确的初始方向使测地线到达终点。在数值求解中，每一步都需要调用扩散模型的 score function 来计算当前位置的概率密度梯度
- 设计动机：IVP 适合测地外推（从已知路径继续延伸），BVP 适合测地插值（在两个已知图像之间找最短路）。两种求解器覆盖了主要的应用场景
沿路径的概率密度计算和测地距离:
- 功能：计算测地线上每个点的概率密度以及两点之间的测地距离
- 核心思路：概率密度通过沿路径积分 score function 的散度来计算，即利用概率流 ODE 的性质。测地距离通过沿测地线积分局部范数得到：\(d(x_0, x_1) = \int_0^1 \|\.gamma(t)\|_{\gamma(t)} dt\)。这些量提供了对扩散潜在空间几何结构的量化分析
- 设计动机：测地距离提供了比欧几里得距离更有意义的"图像相似度"度量。沿路径的概率密度分析可以揭示视频片段是否沿着自然的图像流形运动

损失函数 / 训练策略¶

本文不需要训练，完全依赖预训练的扩散模型。计算开销主要来自测地线方程的数值求解，每步需要一次扩散模型前向传播来计算 score function。

实验关键数据¶

视频与测地线的近似性分析¶

分析内容	关键发现
自然视频 vs 测地线	自然视频片段在扩散潜在空间中近似沿测地线运动，偏差较小
快速运动 vs 慢速运动	慢速、平滑的视频更接近测地线；快速运动偏离测地线更多
概率密度沿路径变化	测地线路径保持较高的概率密度，线性插值路径在中间段密度显著下降

图像插值对比¶

方法	视觉质量	中间帧自然度	路径概率密度
测地线插值 (Ours)	高	自然过渡	始终较高
线性插值 (LERP)	中	可能出现伪影	中间段下降
球面插值 (SLERP)	中	类似 LERP	略优于 LERP

关键发现¶

自然视频近似为测地线：分析多段真实视频后发现，帧间变化遵循的路径与测地线高度吻合。这提供了一个理论视角：视频可以理解为图像流形上的测地运动
测地线插值避免低密度区域：与线性插值相比，测地线插值路径始终保持较高的概率密度，生成的中间帧更自然、更可信
测地距离比欧几里得距离更有语义意义：两张语义相近但外观不同的图像（如同一人不同表情），其测地距离远小于欧几里得距离，因为它们之间存在高概率密度的连接路径
BVP 求解器的初始化敏感：边值问题的 shooting method 对初始方向猜测敏感，在高维潜在空间中有时可能收敛到次优解

亮点与洞察¶

将黎曼几何与扩散模型优雅地结合：利用扩散模型内在的 score function 定义黎曼度量是理论上非常自然的做法。这个框架为分析和利用扩散潜在空间的几何结构提供了数学基础
"视频是测地线"的发现具有深远意义：这个发现暗示了视频生成可以被形式化为测地线外推问题，为 video generation 提供了新的理论视角。可以将其应用于视频预测——给定前几帧，沿测地线外推即可预测后续帧
无训练的图像插值和外推：不需要任何额外训练或微调，利用预训练扩散模型即可实现高质量的图像序列生成。这种"即插即用"的特性使其非常实用

局限与展望¶

计算成本高：测地线求解需要多次调用扩散模型的 score function，计算量是单次生成的数十倍。对于高分辨率图像，实时应用不现实
高维 BVP 的稳定性：在高维潜在空间中求解边值问题困难，shooting method 可能不收敛或收敛到局部最优
度量的选择不唯一：概率密度的倒数只是一种可能的度量选择，其他与密度相关的度量（如 Fisher 信息度量）可能有不同的性质和应用
仅在图像空间验证：未验证在其他数据类型（如音频、3D 数据）的扩散模型上是否同样有效
可能的改进方向：用蒸馏或近似方法加速测地线计算；将测地线框架与 flow matching 方法结合（后者本身也涉及最优传输路径）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将黎曼几何和扩散模型的 score function 结合是优雅且原创的理论贡献
实验充分度: ⭐⭐⭐ 实验主要是定性展示和分析性结果，缺少大规模定量评估和与更多 baseline 的对比
写作质量: ⭐⭐⭐⭐ 数学推导严谨，概念解释清晰
价值: ⭐⭐⭐⭐ 为理解和利用扩散模型潜在空间提供了新的数学工具，对图像/视频生成有潜在的深远影响