Brain-like Variational Inference¶

会议: NeurIPS 2025
arXiv: 2410.19315
代码: hadivafaii/IterativeVAE
领域: 计算神经科学 / 变分推断
关键词: variational inference, spiking neural network, predictive coding, free energy, Poisson VAE

一句话总结¶

提出 FOND 框架（Free energy Online Natural-gradient Dynamics），从自由能最小化的第一原理推导出脉冲神经网络推断动力学，并实现 iPVAE（迭代泊松 VAE），在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。

研究背景与动机¶

领域现状：变分推断在机器学习（ELBO 最大化）和神经科学（自由能最小化）中有等价的数学形式（ELBO = \(-\mathcal{F}\)），但这种等价性一直未能产生具体的、从第一原理出发的演算法/架构设计。
现有痛点：(a) 标准 VAE 使用 amortized inference（编码器网络一次前传），不符合大脑中的迭代/循环处理；(b) 预测编码（PC）虽然迭代但用连续膜电位通信，不符合真实神经元的脉冲通信方式；(c) 现有模型多是"先发现模型再后验解释为变分推断"，缺少"从理论出发推导架构"的规范性（prescriptive）方法。
核心矛盾：如何将变分推断原理转化为具体的、同时在计算上高效和生物上合理的神经网络架构？
切入角度：遵循 Bayesian Learning Rule 的思路，将分布选择和参数化作为"灵活选择"，将自然梯度+在线更新+迭代精炼作为"固定处方"，自顶向下推导。
核心 idea：选择泊松分布作为后验和先验，膜电位作为动力变量，对自由能做自然梯度下降，自然导出一个具有前馈驱动、循环"explaining away"和稳态"leak"三项的脉冲网络动力学。

方法详解¶

整体框架¶

FOND 框架分两层： - 灵活选择（建模者决定）：分布族（泊松/高斯）、参数化方式（膜电位 \(u\)，发放率 \(r = \exp(u)\)） - 固定处方（FOND 确定）：(1) 自然梯度下降、(2) 在线信念更新（当前后验变为下一步先验）、(3) 迭代精炼

三个具体模型：iPVAE（泊松）、iGVAE（高斯）、\(\text{iG}_\varphi\)VAE（高斯+非线性）

关键设计¶

泊松自由能及其自然梯度
做什么：推导泊松后验/先验 + 高斯似然下的自由能梯度
核心公式：\(\mathcal{F} = \frac{1}{2}\|x - \Phi z\|_2^2 + \beta \sum_i (e^{u_i}(u_i - u_{0,i}) - (e^{u_i} - e^{u_{0,i}}))\)
自然梯度（Fisher 预条件 \(G(u) = \exp(u)\) 抵消掉 \(\exp(u)\) 因子）后得到简洁的膜电位动力学：\(\dot{u} \propto \Phi^T x - \Phi^T \Phi z(u) - \beta(u - u_0)\)
三项的生物解释：前馈"驱动" + 循环"explaining away" + 稳态"leak"
脉冲通信与涌现的侧向竞争
做什么：将动力学从膜电位空间转换到发放率空间
核心思路：\(r_{t+1,i} = r_{t,i} \cdot \frac{\exp(\Phi^T x)_i}{\exp(W_{ii} z_{t,i}) \prod_{j \neq i} \exp(W_{ij} z_{t,j})}\)
分母中 \(W = \Phi^T \Phi\) 的正定性保证了自抑制（\(W_{ii} > 0\)）和具有重叠调谐的神经元之间的相互抑制
关键优势：循环交互通过离散脉冲 \(z\)（而非连续值）传递，比预测编码更符合生物学
在线推断：时间演化的先验
做什么：实现持续的信念更新——每一步的后验成为下一步的先验
核心思路：离散时间更新 \(u_{t+1} = u_t + \Phi^T x - \Phi^T \Phi z_t\)，KL 项在单步更新极限下消失
生物意义：对应大脑感知中的序列依赖效应（serial dependence）——之前的刺激影响当前知觉
训练方案（Learning to Infer）
做什么：通过 BPTT（反向传播穿越时间）学习生成模型参数 \(\Phi\)
核心思路：在训练时运行 \(T_{\text{train}}\) 步推断迭代，累积所有步骤的梯度进行单次参数更新。\(T_{\text{train}}\) 可解释为有效"深度"
测试时用 \(T_{\text{test}} = 1000\) 步，远超训练时的优化步数

损失函数 / 训练策略¶

总损失 = 重建损失（MSE）+ \(\beta\) × KL 散度（泊松后验 vs 泊松先验）
\(\beta\) 控制率-失真权衡，更大 \(\beta\) → 更稀疏的表征
线性解码器 \(\hat{x} = \Phi z\)（主实验），也支持非线性解码器

实验关键数据¶

主实验（重建-稀疏性权衡，van Hateren 自然图像）¶

模型	R² (重建)	稀疏度 (零比例)	收敛步数	参数量
iPVAE	0.83	77%	95	少（仅字典 \(\Phi\)）
iG-VAE	0.87	0%	69	同上
\(\text{iG}_{\text{relu}}\)-VAE	0.82	58%	75	同上
P-VAE (amortized)	较低	较低	1	25× 更多（编码器网络）

关键对比¶

比较维度	iPVAE	标准 PC	Amortized VAE
通信方式	离散脉冲 \(z\)	连续膜电位	连续值
推断方式	迭代自然梯度	迭代普通梯度	单次前传
稀疏性	高（77%）	无	低
V1-like 特征	✓ Gabor filters	部分	✗
OOD 泛化	最好	中等	较差

消融实验¶

配置	发现
\(T_{\text{train}} = 8/16/32\)	更多训练步改善重建-稀疏性前沿
\(\beta\) 变化	更大 \(\beta\) 增加稀疏性（如理论预测）
线性 vs 非线性解码器	非线性解码器（MLP/CNN）在 OOD 上性能更好
iPVAE vs LCA	性能统计上不可区分，但 iPVAE 对超参数更鲁棒

关键发现¶

所有迭代 VAE 一致优于对应的 amortized 版本，尽管 amortized 版本有多数量级更多的参数
iPVAE 学到的字典是 V1-like 的 Gabor 滤波器，并展现对比度依赖的响应延迟等皮层响应特性
iPVAE 在 OOD 泛化上超过混合迭代-amortized VAE（如 SVAE），可能因为学到了组合性编码
在 MNIST 下游分类中，PVAE 达到约 98% 准确率，与有监督 PCN 相当

亮点与洞察¶

从第一原理到具体架构：从自由能最小化出发，经过泊松分布选择和自然梯度处方，"自然地"推导出一个具有前馈-循环-leak 三项的脉冲网络——这是规范性（prescriptive）理论的典范
涌现的 divisive normalization：Eq. 8 展示的乘性更新规则中分母自然出现了 divisive normalization，这是大脑皮层中被广泛观察到的计算原语
整数脉冲计数的硬件友好性：iPVAE 的隐表示是整数值脉冲计数，天然适合 neuromorphic 芯片等低功耗硬件
迭代推断的优势不仅在精度：迭代方法在 OOD 场景下表现特别好，因为它可以通过多步精炼来纠正初始错误（amortized 方法只有一次机会）

局限性 / 可改进方向¶

主文只用线性解码器：虽然附录扩展到非线性解码器，但主要理论和实验基于简单的线性情况
训练时间约 2 倍：迭代推断的 BPTT 训练开销较大，尽管推理速度在大批量时与 amortized 方法持平
评估数据集有限：主要实验在 van Hateren 图像块和 MNIST 上，大规模数据集（CelebA、CIFAR-10）仅在附录中简要展示
生物合理性仍有差距：straight-through 梯度估计器和 BPTT 学习规则本身不是生物合理的

评分¶

新颖性: ⭐⭐⭐⭐ 从第一原理推导出具体脉冲网络的框架很有新意，但底层技术（自然梯度、泊松 VAE）已存在
实验充分度: ⭐⭐⭐⭐ 模型比较全面系统（9 个模型×多个超参数），但数据集规模有限
写作质量: ⭐⭐⭐⭐⭐ 论文组织优秀，从背景统一→框架定义→具体推导→实验验证层层递进
价值: ⭐⭐⭐⭐ 为计算神经科学和机器学习之间搭建了有意义的桥梁