Context-Enhanced Memory-Refined Transformer for Online Action Detection¶

会议: CVPR 2025
arXiv: 2503.18359
代码: GitHub
领域: 视频理解
关键词: 在线动作检测, 动作预测, Transformer, 记忆机制, 训练-推理差异

一句话总结¶

本文揭示了现有在线动作检测（OAD）方法中的训练-推理不一致问题——短时记忆帧的不均衡上下文暴露和伪未来引入的非因果信息泄漏导致学习偏向中间帧——并提出CMeRT通过近过去上下文增强编码器和基于近未来的记忆精炼解码器来解决该问题，在THUMOS'14、CrossTask和EK100上实现SOTA。

研究背景与动机¶

在线动作检测（OAD）要求仅基于过去的观察在视频流中实时识别动作，是自动驾驶、监控和AR助手等应用的基础。最先进的OAD方法将历史帧划分为长时记忆和短时记忆，并通过预测伪未来来补偿缺失的未来上下文。训练时使用因果mask让短时记忆中的所有帧都作为训练样本，但推理时仅使用最新帧。

核心矛盾在于训练-推理差异导致两种偏差：

上下文暴露不均衡：因果mask使得短时记忆中的早期帧（如 \(t_s\)）几乎没有即时上下文，而最新帧（\(t\)）拥有完整上下文。这导致早期帧表示质量差（损失高），但这些低质量样本参与训练时会伤害分类器对最新帧的预测能力。

非因果泄漏：MAT等方法使用基于完整短时记忆生成的"伪未来"来增强检测，但这使得中间帧通过"future→short-term→future"间接访问了它们之后的帧，违反了因果性。这导致训练偏向中间帧（呈valley-shaped loss curve），损害最新帧的学习。

本文提出CMeRT，通过(1)近过去上下文补充早期帧的即时信息，(2)仅从长时记忆（而非短时记忆）生成近未来，避免非因果泄漏。

方法详解¶

整体框架¶

CMeRT采用编码器-解码器结构，操作五个上下文分区：长时记忆 \(M_L\)、短时记忆 \(M_S\)、预测上下文 \(Q_A\)、近过去 \(M_C\)、近未来 \(M_F\)。编码器压缩长时记忆并用近过去上下文增强短时记忆编码；解码器从压缩长时记忆生成近未来并精炼短时记忆。所有模块基于统一的Transformer Decoder Unit（TDU）构建。

关键设计¶

上下文增强编码器（Context-Enhanced Encoder）:
- 功能：为短时记忆中的早期帧补充即时过去上下文，缓解不均衡暴露问题
- 核心思路：提取近过去记忆 \(M_C = \{f_i\}_{i=t_s-T_c}^{t_s-1}\)（长度 \(T_c \ll T_l\)），将其拼接到短时记忆前，与短时记忆和预测查询一起通过带因果mask的TDU编码：\(M_{SA} = \text{TDU}(M_C \| M_S \| Q_A, \hat{M}_L \| M_S \| Q_A, \hat{M}_L \| M_S \| Q_A, G)_{[T_c:T_c+T_s+T_a]}\)
- 设计动机：虽然近过去 \(M_C\) 与长时记忆 \(M_L\) 有重叠，但长时记忆经过压缩丢失了细粒度细节，\(M_C\) 保留了这些细节供早期帧使用；编码后丢弃 \(M_C\)，仅保留增强后的短时记忆和预测
近未来生成器（Near-Future Generator）:
- 功能：从压缩长时记忆生成近未来上下文，为所有短时帧提供未来信息
- 核心思路：\(M_F = \text{TDU}(Q_F, \hat{M}_L, \hat{M}_L, \text{None})\)，使用可学习查询 \(Q_F\)（长度 \(T_f\)）从 \(\hat{M}_L\) 中检索有用信息
- 设计动机：关键改进在于不使用短时记忆来生成近未来（MAT的做法），而是仅用压缩后的长时记忆，从根本上消除了非因果泄漏问题
记忆精炼模块（Memory Refinement）:
- 功能：用近未来上下文精炼编码后的短时记忆，提升检测和预测性能
- 核心思路：\(\hat{M}_{SA} = \text{TDU}(M_{SA}, \hat{M}_L \| M_{SA} \| M_F, \hat{M}_L \| M_{SA} \| M_F, G)\)
- 设计动机：近未来信息可以帮助排歧当前动作，同时由于 \(M_F\) 来源于压缩长时记忆而非短时记忆，不会产生因果泄漏

损失函数 / 训练策略¶

训练损失为：\(\mathcal{L} = \mathcal{L}_{SA}^1 + \lambda_1 \mathcal{L}_{SA}^0 + \lambda_2 \mathcal{L}_F\)

其中 \(\mathcal{L}_{SA}^0\) 和 \(\mathcal{L}_{SA}^1\) 分别是编码器输出和精炼后输出的交叉熵损失，\(\mathcal{L}_F\) 是近未来生成的交叉熵损失。使用共享分类器。平衡系数 \(\lambda_1 = 0.2\), \(\lambda_2 = 0.5\)。使用Adam优化器+cosine退火+warmup。训练采样策略包括滑动窗口（THUMOS和CrossTask）和事件采样（EK100）。推理时采用步长为1的滑动窗口模拟在线流式场景。

实验关键数据¶

主实验¶

数据集	指标	CMeRT	MAT (之前SOTA)	提升
THUMOS'14	mAP (Detection)	73.2	71.6	+1.6
CrossTask	mAP (Detection)	35.9	33.9	+2.0
EK100	Top-5 Recall (Action)	27.6	26.3	+1.3
THUMOS'14	mAP (Anticipation Avg)	59.5	58.2	+1.3
EK100	Top-5 Recall (Action Antic.)	19.8	19.5	+0.3

消融实验¶

配置	TH'14 mAP	CrossTask mAP	EK100 Action	说明
无CE、无MR	71.5	33.4	26.3	基线
+MR (近未来精炼)	73.0	34.8	27.1	+1.5/+1.4/+0.8
+CE (近过去增强)	71.9	33.9	26.6	+0.4/+0.5/+0.3
+CE+MR (完整CMeRT)	73.2	35.9	27.6	最优组合

近过去长度(s)	CrossTask	近过去长度(s)	TH'14	EK100 Action
5	35.1	0.5	73.2	27.2
10	35.9	1	72.8	27.3
15	35.6	2	72.7	27.6

关键发现¶

记忆精炼（MR）贡献大于上下文增强（CE），前者在三个数据集上分别带来+1.5%、+1.4%、+0.8%提升
近过去上下文的最优长度因数据集复杂度而异：简单的THUMOS只需0.5s，复杂的CrossTask和EK100需要更长
朴素的解决方案（如MAT-rw加权最新帧、MAT-stream仅用最新帧训练）效果有限甚至大幅退化
使用DinoV2替代传统特征后，CMeRT在THUMOS上达到76.4% mAP，进一步验证了方法与更强特征的兼容性
效率优于MAT：参数量更少（94.5M vs 107.4M），FPS更高（126.6 vs 102.0）

亮点与洞察¶

训练-推理不一致的诊断：通过帧级损失曲线的可视化分析，精确定位了两种偏差来源——这种诊断方法论本身具有迁移价值
近过去上下文的巧妙引入：不是简单延长短时记忆，而是在不增加推理成本的前提下为训练中的早期帧补充即时上下文
近未来生成的无泄漏设计：从压缩长时记忆而非短时记忆生成近未来，从源头杜绝非因果泄漏
统一检测与预测：单一框架同时处理在线检测和动作预测，且通过共享分类器和联合训练实现互利
新评估协议：引入更强特征（DinoV2）、事件级指标和新benchmark（CrossTask），推动OAD研究更新

局限与展望¶

仍依赖预提取的帧特征（如ResNet-50、I3D），未探索端到端训练的可能
近过去和近未来的长度需要按数据集手动调整
在EK100上的预测提升幅度有限（+0.3%），可能因该数据集的细粒度动作分布过于长尾
基于长时压缩记忆生成的近未来可能丢失某些时序细节，与基于短时记忆的预测相比有信息损失
未探索可学习的帧采样权重策略来替代均匀处理所有短时帧

评分¶

新颖性: ⭐⭐⭐⭐ 对训练-推理差异的诊断深刻且新颖，近过去/近未来的设计有系统性，但整体框架是对现有记忆方法的增量改进
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、检测+预测任务、详尽消融（长度、距离、特征类型、效率）、新benchmark和协议
写作质量: ⭐⭐⭐⭐⭐ 问题诊断部分的可视化分析非常精彩，逻辑推导严密，从观察到方法的衔接自然
价值: ⭐⭐⭐⭐ 对OAD领域的训练-推理一致性问题给出了系统解决方案，并推动了评估协议的更新