Bayesian Evidential Deep Learning for Online Action Detection¶
会议: ECCV 2024
arXiv: 无
代码: 无
领域: 视频理解 / 动作检测
关键词: 在线动作检测, 贝叶斯神经网络, 证据深度学习, 不确定性量化, 教师-学生架构
一句话总结¶
本文提出 BEDL(Bayesian Evidential Deep Learning)框架,通过贝叶斯教师-证据学生架构,在在线动作检测任务中实现了准确高效的推理与可靠的不确定性量化,并设计了基于贝叶斯互信息的注意力模块用于主动特征选择。
研究背景与动机¶
领域现状:在线动作检测(Online Action Detection, OAD)旨在从流式视频中实时识别正在发生的动作,且不能利用未来帧的信息。这一任务在自动驾驶、视频监控、人机交互等实时场景中具有重要应用价值。现有方法主要关注提升检测准确率,使用 RNN、Transformer 等架构对历史帧进行时序建模。
现有痛点:现有 OAD 方法存在两个关键问题。第一,它们通常只输出确定性的预测结果,无法量化预测的不确定性。在安全关键场景中(如自动驾驶),知道模型"多不确定"与知道模型"预测了什么"同等重要。第二,现有的不确定性量化方法——贝叶斯神经网络(BNN)需要多次前向采样,推理开销大,不适合实时应用;证据深度学习(EDL)虽然单次前向即可估计不确定性,但其估计精度不如 BNN。
核心矛盾:贝叶斯神经网络(BNN)的不确定性估计准确但推理慢,证据深度学习(EDL)推理快但不确定性估计不够准确。对于 OAD 这种需要实时推理且不确定性信息至关重要的任务,如何同时兼顾两者的优势?
本文目标 (1) 如何在 OAD 中高效且准确地量化不确定性?(2) 如何利用不确定性信息来提升检测性能?(3) 如何设计一个既能实时推理又能输出可靠不确定性的统一框架?
切入角度:作者提出用教师-学生架构把 BNN 和 EDL 结合起来:用 BNN 作为教师模型提供高质量的不确定性信号,通过证据学习让学生模型在单次前向中复现这些信号。这样训练时利用 BNN 的优势,推理时只需要轻量的学生模型。
核心 idea:用贝叶斯教师网络的互信息和分布知识指导证据学生网络学习,让学生模型在单次前向传播中实现既准确又高效的在线动作检测与不确定性量化。
方法详解¶
整体框架¶
BEDL 采用教师-学生架构。教师模型是一个贝叶斯神经网络,通过 Monte Carlo Dropout 或变分推断实现,能够通过多次采样获得准确的不确定性估计(包括认知不确定性和偶然不确定性)。学生模型是一个证据深度学习网络,输出 Dirichlet 分布的参数("证据"),通过单次前向传播即可估计不确定性。训练时,教师模型将其互信息和预测分布传递给学生模型;推理时仅使用学生模型,实现实时在线动作检测。
关键设计¶
-
贝叶斯教师模型(Bayesian Teacher Model):
- 功能:提供高质量的不确定性信号作为学生模型的学习目标
- 核心思路:在标准 OAD 网络的基础上引入贝叶斯化处理(如 MC Dropout),使得权重服从后验分布。通过 \(T\) 次前向采样获得预测分布 \(\{p_1, p_2, ..., p_T\}\),进而计算:(a) 预测均值 \(\bar{p} = \frac{1}{T}\sum_i p_i\) 作为最终预测;(b) 互信息 \(I(y; \omega | x) = H[\bar{p}] - \frac{1}{T}\sum_i H[p_i]\) 衡量认知不确定性(模型不确定性);(c) \(\frac{1}{T}\sum_i H[p_i]\) 衡量偶然不确定性(数据不确定性)
- 设计动机:BNN 是不确定性量化的"金标准",但多次采样在实时场景不切实际。将其作为教师模型,可以离线获取高质量的不确定性目标
-
证据学生模型(Evidential Student Model):
- 功能:通过单次前向传播同时完成动作检测和不确定性估计
- 核心思路:学生模型的最后一层输出 Dirichlet 分布的浓度参数(证据)\(\alpha = [\alpha_1, ..., \alpha_K]\),其中 \(K\) 是动作类别数。Dirichlet 分布是分类分布的共轭先验,可以自然地表示"对预测的不确定性"。通过从教师模型蒸馏知识:(a) 用 KL 散度最小化学生的预测分布与教师的平均预测之间的差异;(b) 用额外的损失函数使学生估计的互信息逼近教师计算的互信息。这样学生模型不仅学会了预测动作,还学会了估计不确定性
- 设计动机:EDL 可以单次前向得到不确定性估计,但直接训练 EDL 的不确定性质量不高。通过教师蒸馏,将 BNN 的高质量不确定性信号注入 EDL,提升了不确定性估计的精度
-
基于互信息的主动特征选择注意力模块(MI-based Active Feature Selection Attention):
- 功能:利用不确定性信息主动选择对预测最有价值的特征,提升 OAD 性能
- 核心思路:传统 OAD 方法使用所有历史帧的特征,但并非所有帧都对当前预测同等重要。该模块根据贝叶斯互信息计算每个时间步特征的"信息价值"——互信息高的特征对应模型不确定的区域,应该被重点关注。通过 attention 权重对特征进行加权聚合,使模型聚焦于最关键的信息。这是一种"主动"检测策略,模型根据自身的不确定性决定关注什么
- 设计动机:在流式视频中,冗余或噪声帧会干扰检测。利用不确定性信号可以自适应地过滤无关信息,在不增加计算量的情况下提升性能。与传统注意力机制不同,这里的注意力权重具有概率论基础
损失函数 / 训练策略¶
总损失包含三个部分:(1) 证据损失 \(L_{edl}\):基于 Dirichlet 分布的负对数似然和正则项,确保预测准确且对错误预测产生低证据;(2) 分布蒸馏损失 \(L_{dist}\):最小化学生预测分布与教师平均预测分布之间的 KL 散度;(3) 互信息蒸馏损失 \(L_{mi}\):使学生估计的互信息逼近教师计算的互信息。训练分两阶段:先训练教师 BNN 模型,再用教师的输出训练学生模型。推理时只需学生模型。
实验关键数据¶
主实验¶
| 数据集 | 指标 | 本文 (BEDL) | 之前SOTA | 提升 |
|---|---|---|---|---|
| THUMOS'14 | mAP (%) | 竞争力水平 | OadTR, LSTR | 额外提供不确定性量化 |
| TVSeries | mcAP (%) | 竞争力水平 | Colar, GateHUB | 推理效率高于 BNN |
| HDD | mAP (%) | 竞争力水平 | 现有 OAD 方法 | 不确定性估计更准确 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅 EDL(无教师) | 准确率下降,不确定性校准差 | 直接训练 EDL 的不确定性质量不足 |
| 仅 BNN(多次采样) | 准确率最高,但推理慢 | 标准 BNN 不适合实时 OAD |
| BEDL(教师+学生) | 准确率接近 BNN,推理快 | 成功兼顾精度与效率 |
| 无 MI 注意力模块 | 准确率略降 | 主动特征选择有效提升性能 |
| 不同采样次数 T | T 越大教师越准确 | T=10-20 即可获得良好效果 |
关键发现¶
- BEDL 的不确定性估计质量显著优于原始 EDL,接近 BNN 的水平
- 在线异常检测实验中,BEDL 的不确定性可以有效区分正常动作和异常/未知动作
- 认知不确定性(互信息)在 OOD 样本检测中比偶然不确定性更有效
- MI 注意力模块通过关注高不确定性区域,在不增加推理开销的情况下提升了 0.5-1.5% 的 mAP
亮点与洞察¶
- 理论优雅:巧妙地将 BNN 和 EDL 通过教师-学生架构融合,兼顾了两者的优势
- 不确定性在 OAD 中的应用:首次系统地将不确定性量化引入在线动作检测,开辟了新方向
- 主动检测范式:基于不确定性的特征选择是一种新颖的"主动感知"策略,有很好的认知启发
- 开箱即用:框架与具体的 OAD backbone 解耦,可以作为插件模块增强任何 OAD 方法
局限与展望¶
- 教师模型仍需 BNN 的多次采样训练,训练阶段成本较高
- 仅在 RGB 特征上实验,多模态(RGB + 光流 + 音频)场景值得探索
- 互信息的计算依赖于分类类别数,在超大规模类别场景可能面临挑战
- 不确定性的校准质量还有提升空间,可以考虑引入更先进的校准技术
- 长视频中的时序建模能力受限于固定窗口大小,可考虑与 Transformer 结合
相关工作与启发¶
- OadTR / LSTR:基于 Transformer 的在线动作检测方法,关注检测准确率但不处理不确定性
- Evidential Deep Learning (Sensoy et al.):EDL 的奠基工作,本文进一步提升了其不确定性估计质量
- MC Dropout (Gal & Ghahramani):经典的近似贝叶斯推断方法,被用于构建教师模型
- Deep Evidential Regression (Amini et al.):将证据学习扩展到回归任务的先驱工作
- 教师-学生框架中的不确定性蒸馏思路可推广到其他实时感知任务(如实时目标检测、自动驾驶决策)
评分¶
- 新颖性: ⭐⭐⭐⭐ BNN+EDL 教师学生融合框架新颖,MI 注意力模块有创意
- 实验充分度: ⭐⭐⭐ 三个标准数据集实验充分,消融验证了各组件,额外的异常检测实验有说服力
- 写作质量: ⭐⭐⭐⭐ 理论推导清晰,动机论证逻辑缜密
- 价值: ⭐⭐⭐⭐ 不确定性量化在安全关键场景有重要实用价值
相关论文¶
- [CVPR 2025] Context-Enhanced Memory-Refined Transformer for Online Action Detection
- [ECCV 2024] Occluded Gait Recognition with Mixture of Experts: An Action Detection Perspective
- [ECCV 2024] Classification Matters: Improving Video Action Detection with Class-Specific Attention
- [ECCV 2024] ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos
- [ECCV 2024] Referring Atomic Video Action Recognition