Mechanistic Interpretability of RNNs Emulating Hidden Markov Models¶
会议: NeurIPS 2025
arXiv: 2510.25674
代码: GitHub
领域: 分割 / 可解释性
关键词: 机制可解释性, 循环神经网络, 隐马尔可夫模型, 随机共振, 动力学系统
一句话总结¶
通过训练 RNN 模拟 HMM 的发射统计,然后反向工程揭示 RNN 如何利用噪声驱动的轨道动力学、结构化连接(噪声积分群体 + kick 神经元)和自诱导随机共振机制来实现离散随机状态转换。
研究背景与动机¶
-
领域现状: RNN 是神经科学中推断神经种群潜在动力学的强大工具,但过去的研究主要聚焦于相对简单的、输入驱动的、确定性行为。HMM 则可以将自然行为分割为离散潜在状态和随机转换。
-
现有痛点: RNN 使用连续状态空间,HMM 使用离散状态和随机转换,两者看似不兼容。人们不清楚 RNN 是否能以及如何通过连续动力学产生离散状态间的随机转换。
-
核心矛盾: 连续状态空间如何实现离散随机行为?直觉上 RNN 应该为每个 HMM 状态学到一个固定点(多阱景观),但实际情况更加微妙。
-
本文目标: RNN 如何用连续内部动力学模拟 HMM 的离散概率行为,其底层计算机制是什么。
-
切入角度: 开发训练方法(噪声驱动 RNN + Sinkhorn 散度),让 RNN 拟合 HMM 发射统计,然后多层次反向工程:全局动力学 → 局部动力学 → 连接结构 → 计算原理。
-
核心 idea: RNN 通过自诱导随机共振 (SISR) 机制——慢速噪声积分 + 快速 kick 触发——实现可组合的动力学原语来模拟 HMM 的随机状态转换。
方法详解¶
整体框架¶
训练 pipeline 包含三步:(A) 噪声输入 \(x_t \sim \mathcal{N}(0, I_d)\) → (B) Vanilla RNN + Gumbel-Softmax → (C) Sinkhorn 散度损失。三类 HMM 架构被考虑:线性链、全连接、环形。
关键设计¶
1. 噪声驱动 RNN 训练范式
- 功能: 使 RNN 能够学习 HMM 的随机转换动力学
- 核心思路: 使用标准 Vanilla RNN (\(h_t = \text{ReLU}(h_{t-1}W_{hh}^T + x_tW_{ih}^T)\)) 接收 i.i.d. 高斯输入,输出通过 Gumbel-Softmax 转换为类别采样。使用 Sinkhorn 散度(一种最优传输距离)作为损失函数比较输出分布与目标分布。
- 设计动机: HMM 目标序列是概率性的,需要适合比较分布的损失函数。Sinkhorn 散度通过平滑耦合矩阵实现可微分优化。
2. 多层次反向工程分析
- 功能: 揭示 RNN 实现 HMM 的完整机制链
- 核心思路:
- 全局动力学: 无输入时 RNN 收敛到单个固定点;有噪声输入时展现沿闭合轨道的"轨道动力学",轨道半径随输入方差线性增长
- 局部动力学: 状态空间分为三个功能区域——簇(clusters) (停留时间长、局部稳定)、kick区 (中等停留、有不稳定方向)、过渡区 (快速确定性通道)
- 连接结构: 发现"kick 神经元"三元组和"噪声积分群体"的结构化连接
- 设计动机: 标准固定点线性化方法无法解释单固定点下的丰富动力学。
3. 因果干预验证
- 功能: 验证 kick 机制的因果作用
- 核心思路: 消融 kick 神经元或其噪声输入(\(\mu=0\))→ 轨迹被困住无法转换;增强(\(\mu=2\))→ 过冲超出目标簇。控制实验(非噪声积分群体的神经元)不影响簇间切换,证实因果关系。
- 设计动机: 不仅要发现而且要验证机制的因果充分性和必要性。
损失函数 / 训练策略¶
- 损失函数: Sinkhorn 散度,比较 RNN 输出序列 \(Y\) 与 HMM 目标序列 \(Y^*\) 的分布
- 评估指标: 欧氏距离(全局重建误差)、转换矩阵、边际频率、输出波动率
- 超参: 隐层大小 \(|h| \in \{50, 150, 200\}\),输入维度 \(d \in \{1, 10, 100, 200\}\)
实验关键数据¶
主实验¶
| HMM 架构 | 状态数 | 发射统计匹配 | 转换矩阵匹配 | 平稳分布匹配 |
|---|---|---|---|---|
| 线性链 | 2-5 | ✓ 精确匹配 | ✓ | ✓ |
| 全连接 | 3 | ✓ 精确匹配 | ✓ | ✓ |
| 环形 | 4 | ✓ 精确匹配 | ✓ | ✓ |
训练过渡阶段特征:
| 训练阶段 | 动力学特征 | 不稳定特征值 | 损失行为 |
|---|---|---|---|
| 早期 | 单固定点 | 无 | 正常下降 |
| 过渡期 | 不稳定 | 出现虚部特征值 | 双下降 |
| 稳定期 | 轨道动力学 | 稳定振荡 | 收敛 |
消融实验¶
| 干预类型 | μ=0 (消融) | μ=2 (增强) |
|---|---|---|
| Kick 神经元 | 困在当前簇 | 过冲超出目标簇 |
| 噪声积分→kick 通路 | 困在当前簇 | 过冲超出目标簇 |
| 控制神经元 | 正常簇间切换 | 正常簇间切换 |
关键发现¶
- 训练后的 RNN 仅有单个固定点(而非 \(n\) 个阱),噪声是维持动力学的必要条件
- 轨道半径与输入方差线性缩放,可由二阶微扰分析解释
- 不同 HMM 架构的 RNN 复用相同的可组合动力学原语——同一基本机制的多个实例组合产生更复杂的离散结构
- 该机制类似自诱导随机共振 (SISR):慢速噪声积分 + 快速 kick 重置的协同
亮点与洞察¶
- 发现了连续系统实现离散随机行为的具体机制,桥接了 RNN 和 HMM 两大范式
- "可组合动力学原语"思想极具启发性——复杂离散结构由简单基本单元的模块化组合产生
- 方法论层面:从全局到局部到单神经元的多层次反向工程范式值得推广
- 噪声不是干扰而是计算资源——这与大脑中随机共振促进信号处理的理论一致
局限与展望¶
- 使用 Vanilla RNN 和简单 3 输出 HMM,能否扩展到更大模型和更复杂 HMM 结构未验证
- 仅研究了输出维度为 3 的 HMM,更高维或连续发射的情况未探索
- 未直接连接到生物神经回路的实验数据
- 单固定点+噪声驱动轨道的机制是否是 RNN 模拟 HMM 的唯一解,还是多种解之一
相关工作与启发¶
- 延续了 RNN 反向工程的传统(固定点分析、低秩连接),但扩展到内部驱动的概率行为
- 与 Driscoll et al. (2024) 的"共享动力学基序"思想呼应,展示了训练环境的同质化效应
- 启发方向:将此框架应用于理解 Transformer 或 SSM 中的离散状态涌现
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 发现了 RNN 通过自诱导随机共振模拟 HMM 的完整机制,极具原创性
- 实验充分度: ⭐⭐⭐⭐ 多层次分析非常系统,因果干预有力,但规模有限
- 写作质量: ⭐⭐⭐⭐⭐ 从全局到局部到连接到原理的叙事逻辑非常清晰
- 价值: ⭐⭐⭐⭐ 对计算神经科学有重要理论贡献,可组合动力学原语的思想有广泛适用性
相关论文¶
- [NeurIPS 2025] Attention (as Discrete-Time Markov) Chains
- [NeurIPS 2025] Interpreting ResNet-based CLIP via Neuron-Attention Decomposition
- [NeurIPS 2025] SANSA: Unleashing the Hidden Semantics in SAM2 for Few-Shot Segmentation
- [NeurIPS 2025] RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
- [NeurIPS 2025] Mars-Bench: A Benchmark for Evaluating Foundation Models for Mars Science Tasks