Forecasting Epileptic Seizures from Contactless Camera via Cross-Species Transfer Learning¶

会议: CVPR 2026 arXiv: 2603.12887 代码: 无领域: 医学图像 关键词: 癫痫发作预测, 视频分析, 跨物种迁移学习, VideoMAE, 少样本学习

一句话总结¶

首次提出纯视频的癫痫发作预测任务，利用大规模啮齿动物癫痫视频进行跨物种自监督预训练，通过 VideoMAE 框架实现 3-10 秒预测窗口内 >70% 的发作预测准确率。

研究背景与动机¶

癫痫发作预测是临床上极具价值但极其困难的问题。现有方法主要依赖 EEG 等神经信号，需要专业设备且不适合长期部署。视频数据具有非侵入性和易获取性的优势，但现有视频研究主要集中在发作后检测，发作前预测几乎未被探索。核心挑战在于：(1) 标注的人类癫痫视频数据极度稀缺（隐私限制）；(2) 通用视频预训练模型缺乏癫痫相关行为模式。啮齿动物癫痫模型广泛应用于癫痫研究，其发作行为与人类具有跨物种一致性，为知识迁移提供了机会。

方法详解¶

整体框架¶

两阶段框架：Stage 1 在跨物种混合数据上进行 VideoMAE 自监督预训练；Stage 2 将预训练编码器迁移到人类癫痫视频的少样本分类任务。

关键设计¶

跨物种自监督预训练: 构建混合数据集 \(D_{pt} = \{v_r^{(1)}, \ldots, v_r^{(m)}, v_h^{(1)}, \ldots, v_h^{(n)}\}\)，包含啮齿动物癫痫视频（RodEpil 数据集中 2952 癫痫 + 3000 正常样本）和 6 名人类患者的 1870 个非发作期视频片段。使用 tube masking 策略（最优 masking ratio=0.3），MSE 损失训练编码器重建被遮蔽的时空 patch：\(\mathcal{L}_{MSE} = \frac{1}{\Omega}\sum_{i \in \Omega}(I_i - \hat{I}_i)^2\)。设计动机是通过跨物种数据弥补人类癫痫视频的稀缺性。
少样本微调: 丢弃解码器，在 CLS token 上添加轻量分类头预测发作概率：\(\hat{y} = \sigma(\mathbf{W} \cdot \mathbf{z}_{\text{cls}} + b)\)。在 2/3/4-shot 设置下评估模型的数据稀缺场景适应能力。使用梯度检查点和 16-bit 混合精度训练保证稳定性和显存效率。
预训练数据消融设计: 系统比较不同数据组合——仅人类(+H)、仅癫痫啮齿动物(+R(Y))、仅正常啮齿动物(+R(N))、混合啮齿动物(+R(Y/N))、完整跨物种(+R(Y/N)+H)，验证跨物种迁移的有效性和各组分贡献。

损失函数 / 训练策略¶

Stage 1: MSE 重建损失，Adam 优化器 LR=\(1 \times 10^{-4}\)，8 × NVIDIA L40 GPU，tube masking ratio=0.3
Stage 2: Binary Cross-Entropy 分类损失，微调 20 epochs
输入采样：\(T=16\) 帧，采样率 2，分辨率 \(224 \times 224\)

实验关键数据¶

数据集¶

预训练数据: RodEpil 啮齿动物数据集（2952 癫痫 + 3000 正常，10秒片段）+ 6 名人类患者 1870 个 5 秒非发作期片段
评估基准: 40 个视频序列（20 发作前 + 20 发作间期），来自 2 个公开 + 1 个私有数据源
评估方式: 2/3/4-shot 独立采样，support/query 无重叠

主实验¶

方法	指标	2-shot	3-shot	4-shot	平均
CSN	bacc	0.339	0.588	0.656	0.528
SlowFast	bacc	0.578	0.680	0.728	0.662
Human-only	bacc	0.744	0.694	0.706	0.715
本文	bacc	0.739	0.718	0.713	0.723
本文	roc_auc	0.768	0.737	0.762	0.756

消融实验¶

配置	avg bacc	avg roc_auc	说明
Base (Human-only)	0.715	0.749	仅人类数据基线
+H (unlabeled human)	0.716	0.742	无标签人类数据微弱提升
+R(Y) (seizure rodents)	0.696	0.733	仅癫痫啮齿动物反而下降
+R(Y/N) (all rodents)	0.697	0.750	混合啮齿动物
+R(Y/N)+H (完整)	0.723	0.756	跨物种组合最优

关键发现¶

跨物种迁移学习有效：完整跨物种配置在所有平均指标上均为最优
最优 mask ratio 为 0.3，远低于标准 VideoMAE 的高 masking ratio（0.75-0.9），因癫痫预测需保留更多时空上下文
仅使用癫痫啮齿动物数据(+R(Y))反而性能下降，需正常行为数据的正则化效果

亮点与洞察¶

首次定义纯视频的癫痫发作预测任务（3-10 秒窗口预测 5 秒内是否发作），具有临床开创性
跨物种迁移学习的思路新颖：利用啮齿动物与人类在癫痫病理学上的一致性进行知识迁移
低 masking ratio (0.3) 的发现揭示了医疗视频与自然视频在信息密度上的根本差异
仅使用癫痫样本预训练反而性能下降的发现表明正常行为作为对比基线的重要性

局限性 / 可改进方向¶

评估数据集仅 40 个视频序列，统计效力有限
固定 5 秒预测窗口，未探索不同预测时程的可行性
纯视觉模态，未融合音频或可穿戴设备信号
跨物种迁移的理论基础（哪些行为模式真正可迁移）缺乏深入分析
临床部署需更大规模、更多样化的纵向数据集验证

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义视频癫痫预测任务，跨物种迁移思路新颖
实验充分度: ⭐⭐⭐ 消融设计合理但数据集过小（40 视频），统计显著性存疑
写作质量: ⭐⭐⭐⭐ 问题定义清晰，框架描述完整
价值: ⭐⭐⭐⭐ 开辟了非侵入式癫痫预警的新方向，具有重要临床潜力

补充说明¶

跨物种迁移学习的核心假设——癫痫发作前的行为先兆在物种间具有共性——在神经科学文献中有一定支撑。本文的实践验证虽然规模有限，但为后续大规模研究开辟了新方向。未来结合多模态信号（视频+HRV+音频）有望进一步提升预测性能。