Brain-like Variational Inference¶
会议: NeurIPS 2025
arXiv: 2410.19315
代码: hadivafaii/IterativeVAE
领域: 计算神经科学 / 变分推断
关键词: variational inference, spiking neural network, predictive coding, free energy, Poisson VAE
一句话总结¶
提出 FOND 框架(Free energy Online Natural-gradient Dynamics),从自由能最小化的第一原理推导出脉冲神经网络推断动力学,并实现 iPVAE(迭代泊松 VAE),在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。
研究背景与动机¶
- 领域现状:变分推断在机器学习(ELBO 最大化)和神经科学(自由能最小化)中有等价的数学形式(ELBO = \(-\mathcal{F}\)),但这种等价性一直未能产生具体的、从第一原理出发的演算法/架构设计。
- 现有痛点:(a) 标准 VAE 使用 amortized inference(编码器网络一次前传),不符合大脑中的迭代/循环处理;(b) 预测编码(PC)虽然迭代但用连续膜电位通信,不符合真实神经元的脉冲通信方式;(c) 现有模型多是"先发现模型再后验解释为变分推断",缺少"从理论出发推导架构"的规范性(prescriptive)方法。
- 核心矛盾:如何将变分推断原理转化为具体的、同时在计算上高效和生物上合理的神经网络架构?
- 切入角度:遵循 Bayesian Learning Rule 的思路,将分布选择和参数化作为"灵活选择",将自然梯度+在线更新+迭代精炼作为"固定处方",自顶向下推导。
- 核心 idea:选择泊松分布作为后验和先验,膜电位作为动力变量,对自由能做自然梯度下降,自然导出一个具有前馈驱动、循环"explaining away"和稳态"leak"三项的脉冲网络动力学。
方法详解¶
整体框架¶
FOND 框架分两层: - 灵活选择(建模者决定):分布族(泊松/高斯)、参数化方式(膜电位 \(u\),发放率 \(r = \exp(u)\)) - 固定处方(FOND 确定):(1) 自然梯度下降、(2) 在线信念更新(当前后验变为下一步先验)、(3) 迭代精炼
三个具体模型:iPVAE(泊松)、iGVAE(高斯)、\(\text{iG}_\varphi\)VAE(高斯+非线性)
关键设计¶
- 泊松自由能及其自然梯度
- 做什么:推导泊松后验/先验 + 高斯似然下的自由能梯度
- 核心公式:\(\mathcal{F} = \frac{1}{2}\|x - \Phi z\|_2^2 + \beta \sum_i (e^{u_i}(u_i - u_{0,i}) - (e^{u_i} - e^{u_{0,i}}))\)
- 自然梯度(Fisher 预条件 \(G(u) = \exp(u)\) 抵消掉 \(\exp(u)\) 因子)后得到简洁的膜电位动力学:\(\dot{u} \propto \Phi^T x - \Phi^T \Phi z(u) - \beta(u - u_0)\)
-
三项的生物解释:前馈"驱动" + 循环"explaining away" + 稳态"leak"
-
脉冲通信与涌现的侧向竞争
- 做什么:将动力学从膜电位空间转换到发放率空间
- 核心思路:\(r_{t+1,i} = r_{t,i} \cdot \frac{\exp(\Phi^T x)_i}{\exp(W_{ii} z_{t,i}) \prod_{j \neq i} \exp(W_{ij} z_{t,j})}\)
- 分母中 \(W = \Phi^T \Phi\) 的正定性保证了自抑制(\(W_{ii} > 0\))和具有重叠调谐的神经元之间的相互抑制
-
关键优势:循环交互通过离散脉冲 \(z\)(而非连续值)传递,比预测编码更符合生物学
-
在线推断:时间演化的先验
- 做什么:实现持续的信念更新——每一步的后验成为下一步的先验
- 核心思路:离散时间更新 \(u_{t+1} = u_t + \Phi^T x - \Phi^T \Phi z_t\),KL 项在单步更新极限下消失
-
生物意义:对应大脑感知中的序列依赖效应(serial dependence)——之前的刺激影响当前知觉
-
训练方案(Learning to Infer)
- 做什么:通过 BPTT(反向传播穿越时间)学习生成模型参数 \(\Phi\)
- 核心思路:在训练时运行 \(T_{\text{train}}\) 步推断迭代,累积所有步骤的梯度进行单次参数更新。\(T_{\text{train}}\) 可解释为有效"深度"
- 测试时用 \(T_{\text{test}} = 1000\) 步,远超训练时的优化步数
损失函数 / 训练策略¶
- 总损失 = 重建损失(MSE)+ \(\beta\) × KL 散度(泊松后验 vs 泊松先验)
- \(\beta\) 控制率-失真权衡,更大 \(\beta\) → 更稀疏的表征
- 线性解码器 \(\hat{x} = \Phi z\)(主实验),也支持非线性解码器
实验关键数据¶
主实验(重建-稀疏性权衡,van Hateren 自然图像)¶
| 模型 | R² (重建) | 稀疏度 (零比例) | 收敛步数 | 参数量 |
|---|---|---|---|---|
| iPVAE | 0.83 | 77% | 95 | 少(仅字典 \(\Phi\)) |
| iG-VAE | 0.87 | 0% | 69 | 同上 |
| \(\text{iG}_{\text{relu}}\)-VAE | 0.82 | 58% | 75 | 同上 |
| P-VAE (amortized) | 较低 | 较低 | 1 | 25× 更多(编码器网络) |
关键对比¶
| 比较维度 | iPVAE | 标准 PC | Amortized VAE |
|---|---|---|---|
| 通信方式 | 离散脉冲 \(z\) | 连续膜电位 | 连续值 |
| 推断方式 | 迭代自然梯度 | 迭代普通梯度 | 单次前传 |
| 稀疏性 | 高(77%) | 无 | 低 |
| V1-like 特征 | ✓ Gabor filters | 部分 | ✗ |
| OOD 泛化 | 最好 | 中等 | 较差 |
消融实验¶
| 配置 | 发现 |
|---|---|
| \(T_{\text{train}} = 8/16/32\) | 更多训练步改善重建-稀疏性前沿 |
| \(\beta\) 变化 | 更大 \(\beta\) 增加稀疏性(如理论预测) |
| 线性 vs 非线性解码器 | 非线性解码器(MLP/CNN)在 OOD 上性能更好 |
| iPVAE vs LCA | 性能统计上不可区分,但 iPVAE 对超参数更鲁棒 |
关键发现¶
- 所有迭代 VAE 一致优于对应的 amortized 版本,尽管 amortized 版本有多数量级更多的参数
- iPVAE 学到的字典是 V1-like 的 Gabor 滤波器,并展现对比度依赖的响应延迟等皮层响应特性
- iPVAE 在 OOD 泛化上超过混合迭代-amortized VAE(如 SVAE),可能因为学到了组合性编码
- 在 MNIST 下游分类中,PVAE 达到约 98% 准确率,与有监督 PCN 相当
亮点与洞察¶
- 从第一原理到具体架构:从自由能最小化出发,经过泊松分布选择和自然梯度处方,"自然地"推导出一个具有前馈-循环-leak 三项的脉冲网络——这是规范性(prescriptive)理论的典范
- 涌现的 divisive normalization:Eq. 8 展示的乘性更新规则中分母自然出现了 divisive normalization,这是大脑皮层中被广泛观察到的计算原语
- 整数脉冲计数的硬件友好性:iPVAE 的隐表示是整数值脉冲计数,天然适合 neuromorphic 芯片等低功耗硬件
- 迭代推断的优势不仅在精度:迭代方法在 OOD 场景下表现特别好,因为它可以通过多步精炼来纠正初始错误(amortized 方法只有一次机会)
局限性 / 可改进方向¶
- 主文只用线性解码器:虽然附录扩展到非线性解码器,但主要理论和实验基于简单的线性情况
- 训练时间约 2 倍:迭代推断的 BPTT 训练开销较大,尽管推理速度在大批量时与 amortized 方法持平
- 评估数据集有限:主要实验在 van Hateren 图像块和 MNIST 上,大规模数据集(CelebA、CIFAR-10)仅在附录中简要展示
- 生物合理性仍有差距:straight-through 梯度估计器和 BPTT 学习规则本身不是生物合理的
相关工作与启发¶
- vs 预测编码(Rao & Ballard 1999):PC 也是迭代推断,但用连续膜电位通信;iPVAE 用离散脉冲通信更生物合理,且自然梯度比普通梯度收敛更快
- vs 标准 VAE(Kingma & Welling 2014):VAE 用 amortized 编码器一步推断,iPVAE 不需要编码器网络,参数量少 25 倍,OOD 泛化更好
- vs LCA(Rozell et al. 2008):LCA 是 iPVAE 的确定性、非脉冲前身——二者性能几乎相同,但 iPVAE 有概率框架和在线学习的额外优势
- vs Bayesian Learning Rule(Khan & Rue 2023):FOND 是 BLR 在推断层面的应用——BLR 统一了学习算法,FOND 统一了推断算法
评分¶
- 新颖性: ⭐⭐⭐⭐ 从第一原理推导出具体脉冲网络的框架很有新意,但底层技术(自然梯度、泊松 VAE)已存在
- 实验充分度: ⭐⭐⭐⭐ 模型比较全面系统(9 个模型×多个超参数),但数据集规模有限
- 写作质量: ⭐⭐⭐⭐⭐ 论文组织优秀,从背景统一→框架定义→具体推导→实验验证层层递进
- 价值: ⭐⭐⭐⭐ 为计算神经科学和机器学习之间搭建了有意义的桥梁