Forecasting Epileptic Seizures from Contactless Camera via Cross-Species Transfer Learning¶

会议: CVPR 2026
arXiv: 2603.12887
代码: 待确认
领域: 医学视频分析 / 迁移学习 / 癫痫预测
关键词: 癫痫发作预测, 视频分析, 跨物种迁移学习, 非接触式监测, VideoMAE

一句话总结¶

首次系统定义基于视频的癫痫发作预测任务，提出两阶段跨物种迁移学习框架——先在啮齿类癫痫视频上自监督预训练 VideoMAE，再在人类发作前视频上少样本微调——在纯视频设定下实现超过 72% 的均衡准确率。

背景与动机¶

癫痫发作预测是临床上极具价值的问题。现有方法主要依赖 EEG 等神经信号，需要专业设备、复杂佩戴流程，严重限制了在日常场景中的长期部署。视频数据具有非侵入性、易获取、支持持续录制等优势，但现有视频分析研究主要做发作后检测（post-onset detection），发作预测（forecasting）几乎未被探索。同时，大规模标注的人类癫痫视频数据因隐私和采集困难极度稀缺，而啮齿类癫痫模型数据充足且发作特征与人类存在跨物种一致性。

核心问题¶

如何仅利用非接触式摄像头视频，在发作前 3-10 秒的短片段中预测未来 5 秒内是否会发生癫痫发作？如何在人类癫痫视频极度稀缺的条件下训练出有效的预测模型？

方法详解¶

整体框架¶

两阶段框架：Stage 1 为领域特定持续预训练（Domain-Specific Continual Pre-training），Stage 2 为少样本微调（Few-shot Fine-tuning）。

关键设计¶

跨物种预训练数据构建：混合 RodEpil 数据集（13000+ 啮齿类 10 秒视频片段，包含 2952 个癫痫样本和 3000 个正常样本）和 1870 个 5 秒人类非发作期视频。啮齿类数据提供癫痫运动动态知识，人类数据保持人体姿态表示能力。
VideoMAE 自监督预训练：以 VideoMAE-base（Kinetics-400 预训练）为初始化，在混合跨物种数据集上做管状掩码（tube masking）重建预训练。关键发现：最优掩码比例为 0.3（而非通常的 0.75-0.9），因为癫痫前兆动作微妙，需要保留更多时空上下文。损失为 MSE 重建损失：\(\mathcal{L}_{MSE} = \frac{1}{\Omega}\sum_{i\in\Omega}(I_i - \hat{I}_i)^2\)。
少样本分类微调：丢弃解码器，保留编码器权重。用 CLS token 接轻量分类头（线性层 + sigmoid），输出发作/非发作概率：\(\hat{y} = \sigma(W \cdot z_{cls} + b)\)。在 N-shot（N∈{2,3,4}）设定下微调 20 epochs，使用交叉熵损失，配合梯度检查点和 16-bit 混合精度训练。

损失函数 / 训练策略¶

Stage 1：MSE 重建损失，Adam 优化器 lr=1e-4，8 卡 NVIDIA L40 多 GPU DDP 训练，采样 T=16 帧，采样率 2，分辨率 224×224
Stage 2：二分类交叉熵损失，20 epochs 微调

实验关键数据¶

方法	平均 bacc	平均 roc_auc	平均 pr_auc
CSN	0.5278	0.5722	0.5837
X3D	0.5540	0.7045	0.7105
SlowFast	0.6620	0.7065	0.6812
Base (VideoMAE, 无跨物种)	0.7149	0.7491	0.6943
Ours (+R(Y/N)+H)	0.7230	0.7558	0.7091

在 2-shot 设定下表现尤为突出：roc_auc=0.7682，pr_auc=0.7269，均为所有方法最高。

消融实验要点¶

+H（仅人类数据预训练）：bacc 略升但 roc_auc 未显著提升
+R(Y)（仅癫痫啮齿类）：效果略差，说明仅看发作样本不够
+R(N)（仅正常啮齿类）：部分指标好，说明一般运动动态也有价值
+R(Y/N)（全部啮齿类）：roc_auc 在 2-shot 达 0.7756，说明正常+病理的完整行为模式协同效果好
+R(Y/N)+H（完整跨物种）：综合最优，平均 roc_auc 0.7558
掩码比例 0.3 为全局最优（vs 通常 VideoMAE 的 0.75-0.9）

亮点¶

首次系统定义纯视频癫痫发作预测任务，填补了该领域的空白
跨物种迁移学习利用啮齿类丰富数据补偿人类数据稀缺，思路新颖且有生物学依据（啮齿类-人类癫痫动力学的跨物种一致性已被文献广泛验证）
掩码比例 0.3 的发现揭示了医学微细动作分析与自然视频理解在预训练策略上的差异

局限性¶

评估集仅 40 个视频序列，统计可靠性受限于 few-shot 范式
仅验证了 5 秒预测窗口，临床实用需要更长预测时间
纯视频模态，未融合音频或可穿戴信号
跨物种迁移的上限受人-鼠运动模式差异制约

与相关工作的对比¶

I3D+LSTM 系列：依赖多步 CNN-RNN，主要做发作检测而非预测，且在 few-shot 条件下泛化差
EEG 预测方法：性能通常更好但需侵入式/半侵入式设备，无法长期部署
BL-BERT：证明了 Transformer 解码啮齿类行为语言的可行性，为本文跨物种思路提供了间接支持

评分¶

新颖性: ⭐⭐⭐⭐⭐ (新任务定义+跨物种迁移框架，高度原创)
实验充分度: ⭐⭐⭐ (数据规模有限，但消融设计合理)
写作质量: ⭐⭐⭐⭐ (问题定义清晰，框架简洁)
价值: ⭐⭐⭐ (开拓性工作但离临床应用尚远)