Mechanistic Interpretability of RNNs Emulating Hidden Markov Models¶

会议: NeurIPS 2025
arXiv: 2510.25674
代码: GitHub
领域: 分割 / 可解释性
关键词: 机制可解释性, 循环神经网络, 隐马尔可夫模型, 随机共振, 动力学系统

一句话总结¶

通过训练 RNN 模拟 HMM 的发射统计，然后反向工程揭示 RNN 如何利用噪声驱动的轨道动力学、结构化连接（噪声积分群体 + kick 神经元）和自诱导随机共振机制来实现离散随机状态转换。

领域现状: RNN 是神经科学中推断神经种群潜在动力学的强大工具，但过去的研究主要聚焦于相对简单的、输入驱动的、确定性行为。HMM 则可以将自然行为分割为离散潜在状态和随机转换。
现有痛点: RNN 使用连续状态空间，HMM 使用离散状态和随机转换，两者看似不兼容。人们不清楚 RNN 是否能以及如何通过连续动力学产生离散状态间的随机转换。
核心矛盾: 连续状态空间如何实现离散随机行为？直觉上 RNN 应该为每个 HMM 状态学到一个固定点（多阱景观），但实际情况更加微妙。
本文目标: RNN 如何用连续内部动力学模拟 HMM 的离散概率行为，其底层计算机制是什么。
切入角度: 开发训练方法（噪声驱动 RNN + Sinkhorn 散度），让 RNN 拟合 HMM 发射统计，然后多层次反向工程：全局动力学 → 局部动力学 → 连接结构 → 计算原理。
核心 idea: RNN 通过自诱导随机共振 (SISR) 机制——慢速噪声积分 + 快速 kick 触发——实现可组合的动力学原语来模拟 HMM 的随机状态转换。

训练 pipeline 包含三步：(A) 噪声输入 \(x_t \sim \mathcal{N}(0, I_d)\) → (B) Vanilla RNN + Gumbel-Softmax → (C) Sinkhorn 散度损失。三类 HMM 架构被考虑：线性链、全连接、环形。

1. 噪声驱动 RNN 训练范式

功能: 使 RNN 能够学习 HMM 的随机转换动力学
核心思路: 使用标准 Vanilla RNN (\(h_t = \text{ReLU}(h_{t-1}W_{hh}^T + x_tW_{ih}^T)\)) 接收 i.i.d. 高斯输入，输出通过 Gumbel-Softmax 转换为类别采样。使用 Sinkhorn 散度（一种最优传输距离）作为损失函数比较输出分布与目标分布。
设计动机: HMM 目标序列是概率性的，需要适合比较分布的损失函数。Sinkhorn 散度通过平滑耦合矩阵实现可微分优化。

2. 多层次反向工程分析

功能: 揭示 RNN 实现 HMM 的完整机制链
核心思路:
- 全局动力学: 无输入时 RNN 收敛到单个固定点；有噪声输入时展现沿闭合轨道的"轨道动力学"，轨道半径随输入方差线性增长
- 局部动力学: 状态空间分为三个功能区域——簇(clusters) (停留时间长、局部稳定)、kick区 (中等停留、有不稳定方向)、过渡区 (快速确定性通道)
- 连接结构: 发现"kick 神经元"三元组和"噪声积分群体"的结构化连接
设计动机: 标准固定点线性化方法无法解释单固定点下的丰富动力学。

3. 因果干预验证

功能: 验证 kick 机制的因果作用
核心思路: 消融 kick 神经元或其噪声输入（\(\mu=0\)）→ 轨迹被困住无法转换；增强（\(\mu=2\)）→ 过冲超出目标簇。控制实验（非噪声积分群体的神经元）不影响簇间切换，证实因果关系。
设计动机: 不仅要发现而且要验证机制的因果充分性和必要性。

HMM 架构	状态数	发射统计匹配	转换矩阵匹配	平稳分布匹配
线性链	2-5	✓ 精确匹配	✓	✓
全连接	3	✓ 精确匹配	✓	✓
环形	4	✓ 精确匹配	✓	✓

训练过渡阶段特征:

训练阶段	动力学特征	不稳定特征值	损失行为
早期	单固定点	无	正常下降
过渡期	不稳定	出现虚部特征值	双下降
稳定期	轨道动力学	稳定振荡	收敛