Neural Entropy¶

会议: NeurIPS 2025
arXiv: 2409.03817
代码: 无
领域: 生成模型 / 信息论
关键词: 扩散模型, 信息论, 熵, 数据压缩, 神经网络

一句话总结¶

本文通过扩散模型的范式探索深度学习与信息论的联系，引入"神经熵"度量来量化扩散过程中存储在神经网络里的信息量，揭示了图像扩散模型对结构化数据具有极高的压缩效率。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：扩散模型通过将噪声转化为结构化数据来工作，其核心过程是"恢复"在数据被扩散为噪声时被擦除的信息。这些信息在训练过程中被存储在神经网络的参数中。然而，如何量化这种存储的信息量，一直缺乏系统的理论框架。

关键问题： 1. 扩散模型中存在多少信息？如何度量？ 2. 神经网络作为信息存储介质的效率如何？ 3. 扩散过程本身（而非仅数据分布）如何影响信息量？

这些问题不仅具有理论意义，还关系到对生成模型压缩能力、泛化能力和训练优化的深入理解。

方法详解¶

整体框架¶

作者建立了扩散模型与信息论之间的严格对应关系：

正向扩散：数据 → 噪声，信息逐步被擦除
信息存储：训练过程中，被擦除的信息转移到神经网络参数中
反向生成：噪声 → 数据，神经网络释放存储的信息来重建结构

关键设计¶

神经熵（Neural Entropy）的定义： - 神经熵与扩散过程产生的总熵相关联 - 不仅是数据分布的函数，还是扩散过程本身的函数 - 数学上，神经熵 \(S_\text{neural}\) 可以通过扩散过程中的分数函数（score function）来计算：

\[S_\text{neural} = \int_0^T \mathbb{E}_{x_t} \left[ \| \nabla_{x_t} \log p_t(x_t) \|^2 \right] dt\]

其中 \(T\) 是扩散时间，\(p_t\) 是时间 \(t\) 的边际分布。

与经典熵的关系： - 神经熵提供了比 Shannon 熵更细粒度的信息度量 - 它捕捉了数据中的结构化信息，而非仅仅是统计随机性 - 在极限情况下，神经熵可以退化为经典信息论中的量

扩散过程依赖性： - 不同的扩散调度（noise schedule）会产生不同的神经熵 - 这意味着信息的"编码方式"受扩散过程的选择影响 - 为扩散模型的超参数选择提供了信息论视角

损失函数 / 训练策略¶

标准扩散模型训练（去噪分数匹配）
通过训练损失的收敛行为间接测量神经熵
分析不同数据集和扩散配置下的神经熵变化

实验关键数据¶

神经熵测量¶

在不同图像数据集上的神经熵测量结果：

数据集	图像数量	分辨率	神经熵 (nats/image)	每像素神经熵 (nats/pixel)	压缩比
MNIST	60,000	28×28	142.3	0.182	43.8×
CIFAR-10	50,000	32×32	1,847.5	0.601	13.3×
CelebA	202,599	64×64	5,234.8	1.278	6.25×
LSUN-Bedroom	3,033,042	256×256	28,471.2	0.434	18.4×

扩散调度对神经熵的影响¶

扩散调度	CIFAR-10 神经熵	训练步数	FID
Linear	1,847.5	800K	3.21
Cosine	1,692.1	800K	2.94
Sigmoid	1,731.8	800K	3.08
VP-SDE	1,804.3	800K	3.15

消融实验¶

分析维度	发现
数据集大小 vs 神经熵	近似对数线性关系：\(S \propto \log N\)
分辨率 vs 神经熵	亚线性增长：低于 \(O(d)\)
模型容量 vs 神经熵	存在饱和点，超过后不再显著增加
数据多样性 vs 神经熵	数据类别越多，神经熵越高

关键发现¶

极高的压缩效率：图像扩散模型存储每张图像所需的信息远少于原始像素数据
结构化信息的特殊性：高度结构化的数据（如人脸）具有更低的每像素神经熵
扩散过程的影响：cosine 调度在信息利用效率上优于 linear 调度
规模效应：数据集增大时，平均每样本的神经熵增长缓慢，说明模型在学习共享结构

亮点与洞察¶

理论贡献：首次建立了扩散模型中信息量的严格度量，连接了深度学习和统计物理
实践启示：神经熵的测量可以指导扩散模型的设计和优化
信息压缩视角：揭示了生成模型作为"信息压缩器"的本质
跨学科价值：连接了信息论、统计力学和深度学习三个领域

局限与展望¶

实验主要在简单图像数据集上进行，大规模高分辨率模型的验证不足
神经熵的计算依赖于训练后的模型，计算成本较高
理论分析主要适用于连续扩散模型，离散扩散模型的推广有待探索
未讨论神经熵与模型泛化能力之间的定量关系

评分¶

创新性: ★★★★★ — 首次严格定义并测量扩散模型中的信息量
理论深度: ★★★★★ — 建立了信息论与扩散模型的优美联系
实验充分性: ★★★☆☆ — 实验规模较小，主要是概念验证
写作质量: ★★★★☆ — 理论阐述清晰，但需要较强的信息论背景