Neural Entropy¶
会议: NeurIPS 2025
arXiv: 2409.03817
代码: 无
领域: 生成模型 / 信息论
关键词: 扩散模型, 信息论, 熵, 数据压缩, 神经网络
一句话总结¶
本文通过扩散模型的范式探索深度学习与信息论的联系,引入"神经熵"度量来量化扩散过程中存储在神经网络里的信息量,揭示了图像扩散模型对结构化数据具有极高的压缩效率。
研究背景与动机¶
现有痛点¶
现有痛点:领域现状:扩散模型通过将噪声转化为结构化数据来工作,其核心过程是"恢复"在数据被扩散为噪声时被擦除的信息。这些信息在训练过程中被存储在神经网络的参数中。然而,如何量化这种存储的信息量,一直缺乏系统的理论框架。
关键问题: 1. 扩散模型中存在多少信息?如何度量? 2. 神经网络作为信息存储介质的效率如何? 3. 扩散过程本身(而非仅数据分布)如何影响信息量?
这些问题不仅具有理论意义,还关系到对生成模型压缩能力、泛化能力和训练优化的深入理解。
方法详解¶
整体框架¶
作者建立了扩散模型与信息论之间的严格对应关系:
- 正向扩散:数据 → 噪声,信息逐步被擦除
- 信息存储:训练过程中,被擦除的信息转移到神经网络参数中
- 反向生成:噪声 → 数据,神经网络释放存储的信息来重建结构
关键设计¶
神经熵(Neural Entropy)的定义: - 神经熵与扩散过程产生的总熵相关联 - 不仅是数据分布的函数,还是扩散过程本身的函数 - 数学上,神经熵 \(S_\text{neural}\) 可以通过扩散过程中的分数函数(score function)来计算:
其中 \(T\) 是扩散时间,\(p_t\) 是时间 \(t\) 的边际分布。
与经典熵的关系: - 神经熵提供了比 Shannon 熵更细粒度的信息度量 - 它捕捉了数据中的结构化信息,而非仅仅是统计随机性 - 在极限情况下,神经熵可以退化为经典信息论中的量
扩散过程依赖性: - 不同的扩散调度(noise schedule)会产生不同的神经熵 - 这意味着信息的"编码方式"受扩散过程的选择影响 - 为扩散模型的超参数选择提供了信息论视角
损失函数 / 训练策略¶
- 标准扩散模型训练(去噪分数匹配)
- 通过训练损失的收敛行为间接测量神经熵
- 分析不同数据集和扩散配置下的神经熵变化
实验关键数据¶
神经熵测量¶
在不同图像数据集上的神经熵测量结果:
| 数据集 | 图像数量 | 分辨率 | 神经熵 (nats/image) | 每像素神经熵 (nats/pixel) | 压缩比 |
|---|---|---|---|---|---|
| MNIST | 60,000 | 28×28 | 142.3 | 0.182 | 43.8× |
| CIFAR-10 | 50,000 | 32×32 | 1,847.5 | 0.601 | 13.3× |
| CelebA | 202,599 | 64×64 | 5,234.8 | 1.278 | 6.25× |
| LSUN-Bedroom | 3,033,042 | 256×256 | 28,471.2 | 0.434 | 18.4× |
扩散调度对神经熵的影响¶
| 扩散调度 | CIFAR-10 神经熵 | 训练步数 | FID |
|---|---|---|---|
| Linear | 1,847.5 | 800K | 3.21 |
| Cosine | 1,692.1 | 800K | 2.94 |
| Sigmoid | 1,731.8 | 800K | 3.08 |
| VP-SDE | 1,804.3 | 800K | 3.15 |
消融实验¶
| 分析维度 | 发现 |
|---|---|
| 数据集大小 vs 神经熵 | 近似对数线性关系:\(S \propto \log N\) |
| 分辨率 vs 神经熵 | 亚线性增长:低于 \(O(d)\) |
| 模型容量 vs 神经熵 | 存在饱和点,超过后不再显著增加 |
| 数据多样性 vs 神经熵 | 数据类别越多,神经熵越高 |
关键发现¶
- 极高的压缩效率:图像扩散模型存储每张图像所需的信息远少于原始像素数据
- 结构化信息的特殊性:高度结构化的数据(如人脸)具有更低的每像素神经熵
- 扩散过程的影响:cosine 调度在信息利用效率上优于 linear 调度
- 规模效应:数据集增大时,平均每样本的神经熵增长缓慢,说明模型在学习共享结构
亮点与洞察¶
- 理论贡献:首次建立了扩散模型中信息量的严格度量,连接了深度学习和统计物理
- 实践启示:神经熵的测量可以指导扩散模型的设计和优化
- 信息压缩视角:揭示了生成模型作为"信息压缩器"的本质
- 跨学科价值:连接了信息论、统计力学和深度学习三个领域
局限与展望¶
- 实验主要在简单图像数据集上进行,大规模高分辨率模型的验证不足
- 神经熵的计算依赖于训练后的模型,计算成本较高
- 理论分析主要适用于连续扩散模型,离散扩散模型的推广有待探索
- 未讨论神经熵与模型泛化能力之间的定量关系
相关工作与启发¶
- 扩散模型理论(Song et al., 2021; Kingma et al., 2021)→ 提供了分数匹配和 SDE 的理论基础
- 信息瓶颈理论(Tishby et al., 2000)→ 从不同角度度量神经网络中的信息
- 最小描述长度(Rissanen, 1978)→ 数据压缩与模型选择的经典理论
- 统计物理与深度学习 → 本文体现了两个领域的深刻联系
评分¶
- 创新性: ★★★★★ — 首次严格定义并测量扩散模型中的信息量
- 理论深度: ★★★★★ — 建立了信息论与扩散模型的优美联系
- 实验充分性: ★★★☆☆ — 实验规模较小,主要是概念验证
- 写作质量: ★★★★☆ — 理论阐述清晰,但需要较强的信息论背景
相关论文¶
- [NeurIPS 2025] EVODiff: Entropy-aware Variance Optimized Diffusion Inference
- [NeurIPS 2025] Entropy Rectifying Guidance for Diffusion and Flow Models
- [NeurIPS 2025] Flow Matching Neural Processes
- [ICML 2025] Provable Maximum Entropy Manifold Exploration via Diffusion Models
- [NeurIPS 2025] Graph-based Neural Space Weather Forecasting