Hessian Geometry of Latent Space in Generative Models¶

会议: ICML2025
arXiv: 2506.10632
代码: GitHub
领域: 生成模型理论 / 信息几何
关键词: Fisher信息度量, Hessian几何, 潜空间分析, 相变, 扩散模型, 测地线

一句话总结¶

提出通过重建 Fisher 信息度量来分析生成模型潜空间几何的方法，发现扩散模型潜空间中存在分形结构的相变边界，在相边界处 Lipschitz 常数发散。

研究背景与动机¶

核心问题：图像生成模型在潜空间插值时经常出现突变（如内容骤变），说明潜空间并非平滑的，但现有方法缺乏系统的几何分析工具
两条研究线索：
1. 潜空间黎曼几何：Park et al. (2023) 通过 Jacobian 奇异向量构建潜空间基，Shao et al. (2018) 用像素空间的 pullback 度量计算测地线，但仅适用于确定性生成器
2. 统计物理中的相变学习：ML 方法用于识别 Ising 模型等的相变边界，Walker et al. (2020) 发现 VAE 隐含提取了充分统计量
动机：将生成模型统一视为统计物理系统，用信息几何方法分析其潜空间结构，适用于随机生成过程（如扩散模型的随机采样）

方法详解¶

核心框架：两步法重建 Fisher 度量¶

Step 1：后验分布近似

给定生成模型 \(p(x|t)\)，从采样 \(x_1, \dots, x_N \sim p(x|t')\) 近似后验分布 \(p(t|x_1, \dots, x_N)\)。

关键定理 (Theorem 3.1)：对指数族分布，当 \(N \to \infty\) 时：

\[\lim_{N \to \infty} \left(p(t|x_1, \dots, x_N)\right)^{1/N} = e^{-D_{\log Z(t)}(t, t')}\]

其中 \(D_{\log Z(t)}(t, t')\) 是 Bregman 散度，对指数族等价于 KL 散度 \(D_{\text{KL}}(p(x|t') \| p(x|t))\)。

两种后验近似策略：

直接训练映射（U²-Net）：适用于统计物理模型（Ising, TASEP），样本具有随机性，像素级不相关
特征提取器（CLIP）：适用于图像领域，利用 \(D_{\text{KL}} \approx \frac{1}{2}\|\mathcal{E}(x_1) - \mathcal{E}(x_2)\|^2\) 近似

Step 2：Fisher 度量重建

关键定理 (Theorem 3.2)：通过最小化 Bregman 散度的 MSE 损失可恢复 \(\log Z(t)\) 的 Hessian（即 Fisher 度量）：

\[g_F(t) = \nabla^2 \log Z(t)\]

实际训练使用 Jensen-Shannon 散度替代 MSE（避免梯度消失）：

\[\mathcal{L}_1(\theta) = \int_{\mathcal{S}} D_{\text{JS}}\left(p(t|x_1, \dots, x_N),\; p_{\log Z_\theta}(t|t')\right) dt'\]

用 MLP（5层隐藏层，512维，ReLU）参数化 \(\log Z_\theta(t)\)
不要求 MLP 满足凸性约束，训练过程中自然收敛至凸函数

测地线近似¶

获得 Fisher 度量后，离散化曲线 \(\gamma(t)\) 为 \(\{\gamma_0, \gamma_1, \dots, \gamma_N\}\)，用 Adam 优化中间点最小化路径长度：

\[L[\gamma(t)] = \int_0^1 \sqrt{\dot{\gamma}(t)^T g_F(\gamma(t)) \dot{\gamma}(t)} \, dt\]

理论基础¶

Bryant–Amari–Armstrong 定理：任何 2D 解析黎曼度量局部可表示为 Hessian 结构，保证方法对任意 2D 潜空间切片理论合理
指数族性质：Fisher 度量等于 \(\log\) 配分函数的 Hessian，\(\log Z(t)\) 仅需恢复至仿射变换即可

实验关键数据¶

Ising 模型 & TASEP：精确可解验证¶

模型	方法	F RMSE	dF/d(param1) RMSE	dF/d(param2) RMSE
Ising	Convex (Ours)	0.0883±0.0006	0.1106±0.0002	0.1237±0.0016
Ising	Mean-as-Stat	0.0981±0.0010	0.4766±0.0023	1.0936±0.0033
Ising	PCA-VAE	0.1669±0.0018	0.7428±0.0025	0.7988±0.0022
TASEP	Convex (Ours)	0.0112±0.00008	0.1165±0.0025	0.1135±0.0017
TASEP	Mean-as-Stat	0.0529±0.0005	0.3832±0.0038	0.3833±0.0031
TASEP	PCA-VAE	0.0524±0.0006	0.3837±0.0038	0.3872±0.0022

偏导数重建精度提升 3–8 倍，对识别相变边界至关重要。

扩散模型：2D 潜空间切片分析¶

实验基于 StableDiffusion 1.5 (Dreamshaper8)，DDIM 调度器（50步，CFG=5），每组生成 60000 张图像。

指标	Geodesic (Ours)	Linear	Geodesic (Wang/Shao)
CLIP Length	72.3±4.00	73.6±3.54	73.6±4.37
Pixel Length	2.77×10⁶	2.76×10⁶	2.74×10⁶
PPL	3.12±0.16	3.17±0.23	3.19±0.21

关键发现：

重建的 \(\log Z(\alpha, \beta)\) 非光滑，导数存在突变 → 反映图像空间的相变
分形相边界：放大相边界可观察到自相似结构，尺度从 \(10^{-5}\) 延伸到 float16 精度 \(10^{-8}\)
单相内测地线近似线性，但在相边界处线性性破缺
扩散模型在相边界处 Lipschitz 常数关于潜空间发散（据作者所知为新发现）

亮点与洞察¶

统一框架：将统计物理与生成模型用信息几何统一，方法同时适用于指数族（Ising, TASEP）和非指数族（扩散模型的 2D 切片，通过 Bryant–Amari–Armstrong 定理保证）
分形相变发现：扩散模型潜空间的相边界具有分形结构，这是与经典连续相边界的本质区别
Lipschitz 发散：首次报告扩散模型关于潜空间的 Lipschitz 常数发散现象
实用价值：Fisher 度量引导的测地线插值在感知上比线性插值更平滑
JSD 训练技巧：用 Jensen-Shannon 散度替代 MSE 损失解决梯度消失问题

局限与展望¶

维度受限：当前方法仅处理 2D 潜空间切片（依赖 Bryant–Amari–Armstrong 定理），高维潜空间的完整分析仍不可行
计算开销大：需为每个 2D 切片生成 60000 张图像，扩展性差
CLIP 近似的局限：CLIP 距离作为 KL 散度的近似依赖正态性假设，实际中可能不成立
确定性 vs 随机采样：DDIM η>0 时 CLIP 方案的相边界被模糊，方法对噪声敏感
测地线改进有限：表2中各方法差异不大，测地线的实际优势主要体现在跨相边界场景
仅验证 SD1.5：未在更先进的扩散模型（如 SDXL, SD3）上验证

评分¶

新颖性: ⭐⭐⭐⭐⭐（信息几何 + 统计物理 + 生成模型的三重交叉，分形相变发现具有原创性）
实验充分度: ⭐⭐⭐⭐（精确可解模型验证充分，但扩散模型实验仅限 SD1.5 和 2D 切片）
写作质量: ⭐⭐⭐⭐（理论推导清晰，但 LaTeX 排版中符号较密集）
价值: ⭐⭐⭐⭐（为理解生成模型潜空间提供新视角，但实用性受维度限制）