Hessian Geometry of Latent Space in Generative Models¶
会议: ICML2025
arXiv: 2506.10632
代码: GitHub
领域: 生成模型理论 / 信息几何
关键词: Fisher信息度量, Hessian几何, 潜空间分析, 相变, 扩散模型, 测地线
一句话总结¶
提出通过重建 Fisher 信息度量来分析生成模型潜空间几何的方法,发现扩散模型潜空间中存在分形结构的相变边界,在相边界处 Lipschitz 常数发散。
研究背景与动机¶
- 核心问题:图像生成模型在潜空间插值时经常出现突变(如内容骤变),说明潜空间并非平滑的,但现有方法缺乏系统的几何分析工具
- 两条研究线索:
- 潜空间黎曼几何:Park et al. (2023) 通过 Jacobian 奇异向量构建潜空间基,Shao et al. (2018) 用像素空间的 pullback 度量计算测地线,但仅适用于确定性生成器
- 统计物理中的相变学习:ML 方法用于识别 Ising 模型等的相变边界,Walker et al. (2020) 发现 VAE 隐含提取了充分统计量
- 动机:将生成模型统一视为统计物理系统,用信息几何方法分析其潜空间结构,适用于随机生成过程(如扩散模型的随机采样)
方法详解¶
核心框架:两步法重建 Fisher 度量¶
Step 1:后验分布近似
给定生成模型 \(p(x|t)\),从采样 \(x_1, \dots, x_N \sim p(x|t')\) 近似后验分布 \(p(t|x_1, \dots, x_N)\)。
关键定理 (Theorem 3.1):对指数族分布,当 \(N \to \infty\) 时:
其中 \(D_{\log Z(t)}(t, t')\) 是 Bregman 散度,对指数族等价于 KL 散度 \(D_{\text{KL}}(p(x|t') \| p(x|t))\)。
两种后验近似策略:
- 直接训练映射(U²-Net):适用于统计物理模型(Ising, TASEP),样本具有随机性,像素级不相关
- 特征提取器(CLIP):适用于图像领域,利用 \(D_{\text{KL}} \approx \frac{1}{2}\|\mathcal{E}(x_1) - \mathcal{E}(x_2)\|^2\) 近似
Step 2:Fisher 度量重建
关键定理 (Theorem 3.2):通过最小化 Bregman 散度的 MSE 损失可恢复 \(\log Z(t)\) 的 Hessian(即 Fisher 度量):
实际训练使用 Jensen-Shannon 散度替代 MSE(避免梯度消失):
- 用 MLP(5层隐藏层,512维,ReLU)参数化 \(\log Z_\theta(t)\)
- 不要求 MLP 满足凸性约束,训练过程中自然收敛至凸函数
测地线近似¶
获得 Fisher 度量后,离散化曲线 \(\gamma(t)\) 为 \(\{\gamma_0, \gamma_1, \dots, \gamma_N\}\),用 Adam 优化中间点最小化路径长度:
理论基础¶
- Bryant–Amari–Armstrong 定理:任何 2D 解析黎曼度量局部可表示为 Hessian 结构,保证方法对任意 2D 潜空间切片理论合理
- 指数族性质:Fisher 度量等于 \(\log\) 配分函数的 Hessian,\(\log Z(t)\) 仅需恢复至仿射变换即可
实验关键数据¶
Ising 模型 & TASEP:精确可解验证¶
| 模型 | 方法 | F RMSE | dF/d(param1) RMSE | dF/d(param2) RMSE |
|---|---|---|---|---|
| Ising | Convex (Ours) | 0.0883±0.0006 | 0.1106±0.0002 | 0.1237±0.0016 |
| Ising | Mean-as-Stat | 0.0981±0.0010 | 0.4766±0.0023 | 1.0936±0.0033 |
| Ising | PCA-VAE | 0.1669±0.0018 | 0.7428±0.0025 | 0.7988±0.0022 |
| TASEP | Convex (Ours) | 0.0112±0.00008 | 0.1165±0.0025 | 0.1135±0.0017 |
| TASEP | Mean-as-Stat | 0.0529±0.0005 | 0.3832±0.0038 | 0.3833±0.0031 |
| TASEP | PCA-VAE | 0.0524±0.0006 | 0.3837±0.0038 | 0.3872±0.0022 |
偏导数重建精度提升 3–8 倍,对识别相变边界至关重要。
扩散模型:2D 潜空间切片分析¶
实验基于 StableDiffusion 1.5 (Dreamshaper8),DDIM 调度器(50步,CFG=5),每组生成 60000 张图像。
| 指标 | Geodesic (Ours) | Linear | Geodesic (Wang/Shao) |
|---|---|---|---|
| CLIP Length | 72.3±4.00 | 73.6±3.54 | 73.6±4.37 |
| Pixel Length | 2.77×10⁶ | 2.76×10⁶ | 2.74×10⁶ |
| PPL | 3.12±0.16 | 3.17±0.23 | 3.19±0.21 |
关键发现:
- 重建的 \(\log Z(\alpha, \beta)\) 非光滑,导数存在突变 → 反映图像空间的相变
- 分形相边界:放大相边界可观察到自相似结构,尺度从 \(10^{-5}\) 延伸到 float16 精度 \(10^{-8}\)
- 单相内测地线近似线性,但在相边界处线性性破缺
- 扩散模型在相边界处 Lipschitz 常数关于潜空间发散(据作者所知为新发现)
亮点与洞察¶
- 统一框架:将统计物理与生成模型用信息几何统一,方法同时适用于指数族(Ising, TASEP)和非指数族(扩散模型的 2D 切片,通过 Bryant–Amari–Armstrong 定理保证)
- 分形相变发现:扩散模型潜空间的相边界具有分形结构,这是与经典连续相边界的本质区别
- Lipschitz 发散:首次报告扩散模型关于潜空间的 Lipschitz 常数发散现象
- 实用价值:Fisher 度量引导的测地线插值在感知上比线性插值更平滑
- JSD 训练技巧:用 Jensen-Shannon 散度替代 MSE 损失解决梯度消失问题
局限与展望¶
- 维度受限:当前方法仅处理 2D 潜空间切片(依赖 Bryant–Amari–Armstrong 定理),高维潜空间的完整分析仍不可行
- 计算开销大:需为每个 2D 切片生成 60000 张图像,扩展性差
- CLIP 近似的局限:CLIP 距离作为 KL 散度的近似依赖正态性假设,实际中可能不成立
- 确定性 vs 随机采样:DDIM η>0 时 CLIP 方案的相边界被模糊,方法对噪声敏感
- 测地线改进有限:表2中各方法差异不大,测地线的实际优势主要体现在跨相边界场景
- 仅验证 SD1.5:未在更先进的扩散模型(如 SDXL, SD3)上验证
相关工作与启发¶
- Park et al. (2023):Jacobian 奇异向量的潜空间基构建
- Shao et al. (2018):pullback 度量测地线(仅限确定性模型)
- Walker et al. (2020):VAE 隐含提取 Ising 模型充分统计量
- Wang et al. (2021):GAN 潜空间的 LPIPS pullback 度量
- Yang et al. (2023):扩散模型关于时间变量的 Lipschitz 常数讨论
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(信息几何 + 统计物理 + 生成模型的三重交叉,分形相变发现具有原创性)
- 实验充分度: ⭐⭐⭐⭐(精确可解模型验证充分,但扩散模型实验仅限 SD1.5 和 2D 切片)
- 写作质量: ⭐⭐⭐⭐(理论推导清晰,但 LaTeX 排版中符号较密集)
- 价值: ⭐⭐⭐⭐(为理解生成模型潜空间提供新视角,但实用性受维度限制)
相关论文¶
- [ICML 2025] DCTdiff: Intriguing Properties of Image Generative Modeling in the DCT Space
- [CVPR 2025] Latent Space Imaging
- [ICML 2025] Reimagining Parameter Space Exploration with Diffusion Models
- [CVPR 2025] Probability Density Geodesics in Image Diffusion Latent Space
- [ICML 2025] ETTA: Elucidating the Design Space of Text-to-Audio Models