跳转至

Mechanistic Interpretability of RNNs Emulating Hidden Markov Models

会议: NeurIPS 2025
arXiv: 2510.25674
代码: GitHub
领域: 分割 / 可解释性
关键词: 机制可解释性, 循环神经网络, 隐马尔可夫模型, 随机共振, 动力学系统

一句话总结

通过训练 RNN 模拟 HMM 的发射统计,然后反向工程揭示 RNN 如何利用噪声驱动的轨道动力学、结构化连接(噪声积分群体 + kick 神经元)和自诱导随机共振机制来实现离散随机状态转换。

研究背景与动机

  1. 领域现状: RNN 是神经科学中推断神经种群潜在动力学的强大工具,但过去的研究主要聚焦于相对简单的、输入驱动的、确定性行为。HMM 则可以将自然行为分割为离散潜在状态和随机转换。

  2. 现有痛点: RNN 使用连续状态空间,HMM 使用离散状态和随机转换,两者看似不兼容。人们不清楚 RNN 是否能以及如何通过连续动力学产生离散状态间的随机转换。

  3. 核心矛盾: 连续状态空间如何实现离散随机行为?直觉上 RNN 应该为每个 HMM 状态学到一个固定点(多阱景观),但实际情况更加微妙。

  4. 本文目标: RNN 如何用连续内部动力学模拟 HMM 的离散概率行为,其底层计算机制是什么。

  5. 切入角度: 开发训练方法(噪声驱动 RNN + Sinkhorn 散度),让 RNN 拟合 HMM 发射统计,然后多层次反向工程:全局动力学 → 局部动力学 → 连接结构 → 计算原理。

  6. 核心 idea: RNN 通过自诱导随机共振 (SISR) 机制——慢速噪声积分 + 快速 kick 触发——实现可组合的动力学原语来模拟 HMM 的随机状态转换。

方法详解

整体框架

训练 pipeline 包含三步:(A) 噪声输入 \(x_t \sim \mathcal{N}(0, I_d)\) → (B) Vanilla RNN + Gumbel-Softmax → (C) Sinkhorn 散度损失。三类 HMM 架构被考虑:线性链、全连接、环形。

关键设计

1. 噪声驱动 RNN 训练范式

  • 功能: 使 RNN 能够学习 HMM 的随机转换动力学
  • 核心思路: 使用标准 Vanilla RNN (\(h_t = \text{ReLU}(h_{t-1}W_{hh}^T + x_tW_{ih}^T)\)) 接收 i.i.d. 高斯输入,输出通过 Gumbel-Softmax 转换为类别采样。使用 Sinkhorn 散度(一种最优传输距离)作为损失函数比较输出分布与目标分布。
  • 设计动机: HMM 目标序列是概率性的,需要适合比较分布的损失函数。Sinkhorn 散度通过平滑耦合矩阵实现可微分优化。

2. 多层次反向工程分析

  • 功能: 揭示 RNN 实现 HMM 的完整机制链
  • 核心思路:
    • 全局动力学: 无输入时 RNN 收敛到单个固定点;有噪声输入时展现沿闭合轨道的"轨道动力学",轨道半径随输入方差线性增长
    • 局部动力学: 状态空间分为三个功能区域——簇(clusters) (停留时间长、局部稳定)、kick区 (中等停留、有不稳定方向)、过渡区 (快速确定性通道)
    • 连接结构: 发现"kick 神经元"三元组和"噪声积分群体"的结构化连接
  • 设计动机: 标准固定点线性化方法无法解释单固定点下的丰富动力学。

3. 因果干预验证

  • 功能: 验证 kick 机制的因果作用
  • 核心思路: 消融 kick 神经元或其噪声输入(\(\mu=0\))→ 轨迹被困住无法转换;增强(\(\mu=2\))→ 过冲超出目标簇。控制实验(非噪声积分群体的神经元)不影响簇间切换,证实因果关系。
  • 设计动机: 不仅要发现而且要验证机制的因果充分性和必要性。

损失函数 / 训练策略

  • 损失函数: Sinkhorn 散度,比较 RNN 输出序列 \(Y\) 与 HMM 目标序列 \(Y^*\) 的分布
  • 评估指标: 欧氏距离(全局重建误差)、转换矩阵、边际频率、输出波动率
  • 超参: 隐层大小 \(|h| \in \{50, 150, 200\}\),输入维度 \(d \in \{1, 10, 100, 200\}\)

实验关键数据

主实验

HMM 架构 状态数 发射统计匹配 转换矩阵匹配 平稳分布匹配
线性链 2-5 ✓ 精确匹配
全连接 3 ✓ 精确匹配
环形 4 ✓ 精确匹配

训练过渡阶段特征:

训练阶段 动力学特征 不稳定特征值 损失行为
早期 单固定点 正常下降
过渡期 不稳定 出现虚部特征值 双下降
稳定期 轨道动力学 稳定振荡 收敛

消融实验

干预类型 μ=0 (消融) μ=2 (增强)
Kick 神经元 困在当前簇 过冲超出目标簇
噪声积分→kick 通路 困在当前簇 过冲超出目标簇
控制神经元 正常簇间切换 正常簇间切换

关键发现

  • 训练后的 RNN 仅有单个固定点(而非 \(n\) 个阱),噪声是维持动力学的必要条件
  • 轨道半径与输入方差线性缩放,可由二阶微扰分析解释
  • 不同 HMM 架构的 RNN 复用相同的可组合动力学原语——同一基本机制的多个实例组合产生更复杂的离散结构
  • 该机制类似自诱导随机共振 (SISR):慢速噪声积分 + 快速 kick 重置的协同

亮点与洞察

  • 发现了连续系统实现离散随机行为的具体机制,桥接了 RNN 和 HMM 两大范式
  • "可组合动力学原语"思想极具启发性——复杂离散结构由简单基本单元的模块化组合产生
  • 方法论层面:从全局到局部到单神经元的多层次反向工程范式值得推广
  • 噪声不是干扰而是计算资源——这与大脑中随机共振促进信号处理的理论一致

局限与展望

  • 使用 Vanilla RNN 和简单 3 输出 HMM,能否扩展到更大模型和更复杂 HMM 结构未验证
  • 仅研究了输出维度为 3 的 HMM,更高维或连续发射的情况未探索
  • 未直接连接到生物神经回路的实验数据
  • 单固定点+噪声驱动轨道的机制是否是 RNN 模拟 HMM 的唯一解,还是多种解之一

相关工作与启发

  • 延续了 RNN 反向工程的传统(固定点分析、低秩连接),但扩展到内部驱动的概率行为
  • 与 Driscoll et al. (2024) 的"共享动力学基序"思想呼应,展示了训练环境的同质化效应
  • 启发方向:将此框架应用于理解 Transformer 或 SSM 中的离散状态涌现

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 发现了 RNN 通过自诱导随机共振模拟 HMM 的完整机制,极具原创性
  • 实验充分度: ⭐⭐⭐⭐ 多层次分析非常系统,因果干预有力,但规模有限
  • 写作质量: ⭐⭐⭐⭐⭐ 从全局到局部到连接到原理的叙事逻辑非常清晰
  • 价值: ⭐⭐⭐⭐ 对计算神经科学有重要理论贡献,可组合动力学原语的思想有广泛适用性

相关论文