PASS: Path-Selective State Space Model for Event-Based Recognition¶

会议: NeurIPS 2025
arXiv: 2409.16953
代码: GitHub
领域: 视频理解 / 事件相机
关键词: 事件相机, 状态空间模型, 频率泛化, 长时序建模, Mamba

一句话总结¶

PASS提出路径选择性事件聚合与扫描（PEAS）模块和多面选择引导（MSG）损失，利用SSM的线性复杂度和频率泛化能力，实现了从10^6到10^9事件长度的广泛分布上的事件识别，并在推理频率变化时保持性能仅下降8.62%（基线下降20.69%）。

研究背景与动机¶

事件相机是仿生传感器，以异步方式捕获亮度变化，具有高时间分辨率、高动态范围、低延迟等优势。然而现有事件识别方法面临两大关键挑战：

事件长度分布受限：现有数据集的事件长度仅覆盖10^6-10^7范围，高速场景或长时事件流需要处理更广范围(10^6-10^9)的事件；变压器的二次复杂度导致大事件量时计算瓶颈

推理频率泛化差：事件相机对高速动态场景有天然优势，但当推理采样频率偏离训练频率时，模型性能显著下降（最高-20.69%），无法充分发挥高时间分辨率优势

现有两种模型结构各有软肋： - 逐步(step-by-step)结构：并行处理但注意力复杂度高 - 循环(recurrent)结构：无法并行且易遗忘早期信息

核心idea：利用SSM（Mamba）的线性复杂度和输入频率泛化特性，配合自适应的事件帧选择机制，处理广泛事件分布并泛化到不同推理频率。

方法详解¶

整体框架¶

事件流 → 固定事件长度采样+帧聚合 → PEAS模块（选择性扫描编码为固定维度特征）→ MSG损失引导优化 → SSM时空建模模块 → 分类预测

关键设计¶

事件采样与帧聚合:
- 在固定时间窗口 \(1/f\) 处采样（\(f\)为采样频率），每次采样固定数量\(G\)个事件
- 得到 \(P = Tf\) 个事件组，转换为事件帧表征 \(F \in \mathbb{R}^{P \times H \times W \times 3}\)
- 固定事件长度聚合优于固定时间窗口聚合（更鲁棒）
PEAS模块 (Path-selective Event Aggregation and Scan):
- 选择掩码预测：用两层3D卷积+激活函数从事件帧 \(F\) 生成选择掩码 \(M \in \mathbb{R}^{K \times P}\)（\(K\)为选择帧数，\(P\)为原始帧数）
- 可微选择：训练时用Gumbel Softmax实现可微的帧选择，推理时用标准Softmax
- 矩阵乘法选择：通过Einsum将掩码与原始帧相乘得到选定帧 \(F' \in \mathbb{R}^{K \times H \times W \times 3}\)
- 双向事件扫描：对选定帧按时空顺序展开为1D序列（遵循VideoMamba的时空扫描方式），从左到右、从上到下级联
- 核心价值：将变长事件流(10^6-10^9)自适应压缩为固定维度特征，端到端可学习
MSG损失 (Multi-faceted Selection Guiding):
- WEIE损失 (Within-Frame Event Information Entropy)：
  - 计算每个选定帧的灰度直方图信息熵
  - 最大化此损失 → 鼓励选择信息量大的帧，减少选择空白帧（padding）的随机性
  - \(\mathcal{L}_{WEIE} = -\sum_{k=1}^{K}\sum_{i=1}^{N}P_i^k \log P_i^k / K\)
- IEMI损失 (Inter-frame Event Mutual Information)：
  - 计算相邻选定帧间的联合分布互信息（含空间位置信息）
  - 最小化此损失 → 减少选定帧间的冗余，确保每帧携带独特信息
- 总目标：\(\mathcal{L}_{total} = \mathcal{L}_{IEMI} - \mathcal{L}_{WEIE} + \mathcal{L}_{CLS}\)
事件时空建模模块:
- 3D卷积(1×16×16)做patch embedding
- 拼接可学习的CLS token + 空间位置嵌入 + 时间嵌入
- 送入\(L\)层堆叠的B-Mamba块（双向Mamba）
- 提取CLS token经归一化+线性分类头得到最终预测
- 使用VideoMamba预训练权重初始化

损失函数 / 训练策略¶

总损失 = IEMI（最小化）- WEIE（最大化）+ 交叉熵分类损失
模型规模：Tiny(7M)、Small(25M)、Middle(74M)
选定帧数K为超参数，不同数据集使用不同值（1/2/8/16/32）
自建数据集：ArDVS100（100类动作转换，事件长度1s-256s）、TemArDVS100（细粒度时序标注）、Real-ArDVS10（真实世界10类）

实验关键数据¶

主实验¶

数据集	事件规模	指标	PASS	之前SOTA	提升
N-Caltech101	~10^6	Top-1	94.60%	EventDance: 92.35%	+2.25%
N-Imagenet	~10^6	Top-1	61.32%	MEM: 57.89%	+3.43%
PAF	~10^7	Top-1	98.28%	ExACT: 94.83%	+3.45%
SeAct	~10^7	Top-1	66.38%	ExACT: 66.07%	+0.38%
HARDVS	~10^7	Top-1	98.41%	S5-ViT: 95.98%	+8.31%
ArDVS100	~10^9	Top-1	97.35%	S5-ViT: 93.39%	+3.96%
TemArDVS100	~10^9	Top-1	89.00%	S5-ViT: 79.62%	+9.38%
Real-ArDVS10	~10^9	Top-1	100%	S5-ViT: 93.33%	+6.67%

消融实验¶

配置	PAF Top-1	ArDVS100 Top-1	说明
无采样	92.90%	92.31%	直接用所有帧
随机采样	92.98%	92.23%	随机选K帧
PEAS	93.33%	92.84%	+0.35/+0.61%
PEAS + MSG	94.83%	93.85%	+1.85/+1.62%

频率泛化	训练60Hz→推理100Hz性能下降
Time Windows基线	-20.69%
Event Count基线	~-15%
PASS	-8.62%

关键发现¶

PEAS模块虽然压缩了帧数，但选择的帧保留了任务关键信息（优于"无采样"基线+0.43%）
MSG损失的两个组件互相配合：IEMI减少冗余(+0.77%)，WEIE减少随机性（额外+1.08%）
在10^9量级事件上，PASS仍保持优异性能（97.35%），而基线方法在如此长的序列上挣扎
频率泛化是PASS的核心优势：无论在20Hz、60Hz还是100Hz训练，跨频率推理性能下降最多仅8.62%

亮点与洞察¶

SSM+事件相机的天然契合：SSM的线性复杂度和频率泛化能力完美匹配事件流的高时间分辨率特性
信息论引导的帧选择：用信息熵和互信息作为选择引导信号，比启发式规则更有原则性
Gumbel Softmax的端到端选择：通过可微的帧选择实现PEAS的端到端训练，避免了两阶段训练的复杂性
自建长时序数据集：ArDVS100、TemArDVS100填补了10^9级别事件识别基准的空白
频率泛化的实际意义：在实际部署中，推理频率通常与训练频率不同，PASS的强泛化性大幅降低了部署难度

局限与展望¶

较大规模的VideoMamba模型出现过拟合现象，需要更好的正则化策略
选定帧数K是手动超参数，未能自适应确定
事件帧表征仅是多种事件表征之一，与voxel grid或时间surface等表征的对比不足
自建数据集通过拼接合成，与真实世界长时间连续事件流可能存在分布差异

评分¶

新颖性: ⭐⭐⭐⭐ SSM用于事件识别的动机自然，PEAS+MSG的设计有原创性，但非突破性创新
实验充分度: ⭐⭐⭐⭐⭐ 5个公开数据集+3个自建数据集，频率泛化实验详尽，消融全面
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图表丰富，但部分公式符号略有混淆
价值: ⭐⭐⭐⭐ 为事件相机识别提供了高效的长时序建模方案，频率泛化特性实用性强