跳转至

Brain-like Variational Inference

会议: NeurIPS 2025
arXiv: 2410.19315
代码: hadivafaii/IterativeVAE
领域: 计算神经科学 / 变分推断
关键词: variational inference, spiking neural network, predictive coding, free energy, Poisson VAE

一句话总结

提出 FOND 框架(Free energy Online Natural-gradient Dynamics),从自由能最小化的第一原理推导出脉冲神经网络推断动力学,并实现 iPVAE(迭代泊松 VAE),在重建-稀疏性权衡、生物合理性和 OOD 泛化上优于标准 VAE 和预测编码模型。

研究背景与动机

  1. 领域现状:变分推断在机器学习(ELBO 最大化)和神经科学(自由能最小化)中有等价的数学形式(ELBO = \(-\mathcal{F}\)),但这种等价性一直未能产生具体的、从第一原理出发的演算法/架构设计。
  2. 现有痛点:(a) 标准 VAE 使用 amortized inference(编码器网络一次前传),不符合大脑中的迭代/循环处理;(b) 预测编码(PC)虽然迭代但用连续膜电位通信,不符合真实神经元的脉冲通信方式;(c) 现有模型多是"先发现模型再后验解释为变分推断",缺少"从理论出发推导架构"的规范性(prescriptive)方法。
  3. 核心矛盾:如何将变分推断原理转化为具体的、同时在计算上高效和生物上合理的神经网络架构?
  4. 切入角度:遵循 Bayesian Learning Rule 的思路,将分布选择和参数化作为"灵活选择",将自然梯度+在线更新+迭代精炼作为"固定处方",自顶向下推导。
  5. 核心 idea:选择泊松分布作为后验和先验,膜电位作为动力变量,对自由能做自然梯度下降,自然导出一个具有前馈驱动、循环"explaining away"和稳态"leak"三项的脉冲网络动力学。

方法详解

整体框架

FOND 框架分两层: - 灵活选择(建模者决定):分布族(泊松/高斯)、参数化方式(膜电位 \(u\),发放率 \(r = \exp(u)\)) - 固定处方(FOND 确定):(1) 自然梯度下降、(2) 在线信念更新(当前后验变为下一步先验)、(3) 迭代精炼

三个具体模型:iPVAE(泊松)、iGVAE(高斯)、\(\text{iG}_\varphi\)VAE(高斯+非线性)

关键设计

  1. 泊松自由能及其自然梯度
  2. 做什么:推导泊松后验/先验 + 高斯似然下的自由能梯度
  3. 核心公式:\(\mathcal{F} = \frac{1}{2}\|x - \Phi z\|_2^2 + \beta \sum_i (e^{u_i}(u_i - u_{0,i}) - (e^{u_i} - e^{u_{0,i}}))\)
  4. 自然梯度(Fisher 预条件 \(G(u) = \exp(u)\) 抵消掉 \(\exp(u)\) 因子)后得到简洁的膜电位动力学:\(\dot{u} \propto \Phi^T x - \Phi^T \Phi z(u) - \beta(u - u_0)\)
  5. 三项的生物解释:前馈"驱动" + 循环"explaining away" + 稳态"leak"

  6. 脉冲通信与涌现的侧向竞争

  7. 做什么:将动力学从膜电位空间转换到发放率空间
  8. 核心思路:\(r_{t+1,i} = r_{t,i} \cdot \frac{\exp(\Phi^T x)_i}{\exp(W_{ii} z_{t,i}) \prod_{j \neq i} \exp(W_{ij} z_{t,j})}\)
  9. 分母中 \(W = \Phi^T \Phi\) 的正定性保证了自抑制(\(W_{ii} > 0\))和具有重叠调谐的神经元之间的相互抑制
  10. 关键优势:循环交互通过离散脉冲 \(z\)(而非连续值)传递,比预测编码更符合生物学

  11. 在线推断:时间演化的先验

  12. 做什么:实现持续的信念更新——每一步的后验成为下一步的先验
  13. 核心思路:离散时间更新 \(u_{t+1} = u_t + \Phi^T x - \Phi^T \Phi z_t\),KL 项在单步更新极限下消失
  14. 生物意义:对应大脑感知中的序列依赖效应(serial dependence)——之前的刺激影响当前知觉

  15. 训练方案(Learning to Infer)

  16. 做什么:通过 BPTT(反向传播穿越时间)学习生成模型参数 \(\Phi\)
  17. 核心思路:在训练时运行 \(T_{\text{train}}\) 步推断迭代,累积所有步骤的梯度进行单次参数更新。\(T_{\text{train}}\) 可解释为有效"深度"
  18. 测试时用 \(T_{\text{test}} = 1000\) 步,远超训练时的优化步数

损失函数 / 训练策略

  • 总损失 = 重建损失(MSE)+ \(\beta\) × KL 散度(泊松后验 vs 泊松先验)
  • \(\beta\) 控制率-失真权衡,更大 \(\beta\) → 更稀疏的表征
  • 线性解码器 \(\hat{x} = \Phi z\)(主实验),也支持非线性解码器

实验关键数据

主实验(重建-稀疏性权衡,van Hateren 自然图像)

模型 R² (重建) 稀疏度 (零比例) 收敛步数 参数量
iPVAE 0.83 77% 95 少(仅字典 \(\Phi\)
iG-VAE 0.87 0% 69 同上
\(\text{iG}_{\text{relu}}\)-VAE 0.82 58% 75 同上
P-VAE (amortized) 较低 较低 1 25× 更多(编码器网络)

关键对比

比较维度 iPVAE 标准 PC Amortized VAE
通信方式 离散脉冲 \(z\) 连续膜电位 连续值
推断方式 迭代自然梯度 迭代普通梯度 单次前传
稀疏性 高(77%)
V1-like 特征 ✓ Gabor filters 部分
OOD 泛化 最好 中等 较差

消融实验

配置 发现
\(T_{\text{train}} = 8/16/32\) 更多训练步改善重建-稀疏性前沿
\(\beta\) 变化 更大 \(\beta\) 增加稀疏性(如理论预测)
线性 vs 非线性解码器 非线性解码器(MLP/CNN)在 OOD 上性能更好
iPVAE vs LCA 性能统计上不可区分,但 iPVAE 对超参数更鲁棒

关键发现

  • 所有迭代 VAE 一致优于对应的 amortized 版本,尽管 amortized 版本有多数量级更多的参数
  • iPVAE 学到的字典是 V1-like 的 Gabor 滤波器,并展现对比度依赖的响应延迟等皮层响应特性
  • iPVAE 在 OOD 泛化上超过混合迭代-amortized VAE(如 SVAE),可能因为学到了组合性编码
  • 在 MNIST 下游分类中,PVAE 达到约 98% 准确率,与有监督 PCN 相当

亮点与洞察

  • 从第一原理到具体架构:从自由能最小化出发,经过泊松分布选择和自然梯度处方,"自然地"推导出一个具有前馈-循环-leak 三项的脉冲网络——这是规范性(prescriptive)理论的典范
  • 涌现的 divisive normalization:Eq. 8 展示的乘性更新规则中分母自然出现了 divisive normalization,这是大脑皮层中被广泛观察到的计算原语
  • 整数脉冲计数的硬件友好性:iPVAE 的隐表示是整数值脉冲计数,天然适合 neuromorphic 芯片等低功耗硬件
  • 迭代推断的优势不仅在精度:迭代方法在 OOD 场景下表现特别好,因为它可以通过多步精炼来纠正初始错误(amortized 方法只有一次机会)

局限性 / 可改进方向

  • 主文只用线性解码器:虽然附录扩展到非线性解码器,但主要理论和实验基于简单的线性情况
  • 训练时间约 2 倍:迭代推断的 BPTT 训练开销较大,尽管推理速度在大批量时与 amortized 方法持平
  • 评估数据集有限:主要实验在 van Hateren 图像块和 MNIST 上,大规模数据集(CelebA、CIFAR-10)仅在附录中简要展示
  • 生物合理性仍有差距:straight-through 梯度估计器和 BPTT 学习规则本身不是生物合理的

相关工作与启发

  • vs 预测编码(Rao & Ballard 1999):PC 也是迭代推断,但用连续膜电位通信;iPVAE 用离散脉冲通信更生物合理,且自然梯度比普通梯度收敛更快
  • vs 标准 VAE(Kingma & Welling 2014):VAE 用 amortized 编码器一步推断,iPVAE 不需要编码器网络,参数量少 25 倍,OOD 泛化更好
  • vs LCA(Rozell et al. 2008):LCA 是 iPVAE 的确定性、非脉冲前身——二者性能几乎相同,但 iPVAE 有概率框架和在线学习的额外优势
  • vs Bayesian Learning Rule(Khan & Rue 2023):FOND 是 BLR 在推断层面的应用——BLR 统一了学习算法,FOND 统一了推断算法

评分

  • 新颖性: ⭐⭐⭐⭐ 从第一原理推导出具体脉冲网络的框架很有新意,但底层技术(自然梯度、泊松 VAE)已存在
  • 实验充分度: ⭐⭐⭐⭐ 模型比较全面系统(9 个模型×多个超参数),但数据集规模有限
  • 写作质量: ⭐⭐⭐⭐⭐ 论文组织优秀,从背景统一→框架定义→具体推导→实验验证层层递进
  • 价值: ⭐⭐⭐⭐ 为计算神经科学和机器学习之间搭建了有意义的桥梁