Action-Guided Attention for Video Action Anticipation¶

会议: ICLR 2026
arXiv: 2603.01743
代码: 无
领域: 视频理解
关键词: 动作预期, 注意力机制, 视频Transformer, 可解释性, EPIC-Kitchens

一句话总结¶

提出动作引导注意力 (AGA) 机制，用模型自身的动作预测序列作为注意力的 Query 和 Key（而非像素特征），结合自适应门控融合历史上下文和当前帧特征，在 EPIC-Kitchens-100 上实现从验证集到测试集的良好泛化，同时支持训练后的可解释性分析。

领域现状：视频动作预期（从当前帧预测未来动作）是计算机视觉的重要任务。Transformer 架构已成为主流范式。
现有痛点：标准自注意力基于像素级特征的点积，缺乏建模未来动作所需的高层语义。这导致模型过拟合于过去帧的显式视觉线索，而非捕捉潜在意图。从验证集到测试集的性能下降显著。
核心矛盾：动作预期本质上是非确定性的——同样的过去观察可能导致多种未来结果。像素级注意力容易被视觉噪声误导，无法建模动作间的语义依赖关系。
本文要解决什么？ 设计一种注意力机制，能利用高层动作语义而非底层像素特征来引导序列建模。
切入角度：将动作预测概率（而非特征向量）作为 Q/K，利用动作间的语义相关性来选择相关的历史时刻，然后通过门控与当前帧融合。
核心 idea 一句话：用模型自身的动作预测序列做注意力引导，使注意力聚焦于"语义相关的过去时刻"而非"视觉相似的过去帧"。

输入视频帧经 backbone 提取特征后，AGA 模块用动作预测的 EMA 作为 Query、最近 S 步的动作预测作为 Key、对应的帧特征作为 Value 做多头注意力，得到历史上下文 \(\tilde{h}_t\)，再通过自适应门控与当前帧特征 \(e_t\) 融合，最终预测未来动作。

动作引导的 Query/Key:
做什么：用预测的动作概率分布（而非视觉特征）构建注意力的 Query 和 Key
核心思路：\(K_t = E_K(\hat{y}_{t-S:t-1})\)，\(Q_t = E_Q(\bar{y}_t)\)，其中 \(\bar{y}_t = \alpha \hat{y}_{t-1} + (1-\alpha)\bar{y}_{t-1}\) 是动作预测的 EMA。Value 仍为帧级视觉特征 \(V_t = E_V(e_{t-S:t-1})\)
设计动机：点积注意力通过 Q/K 相关性为 V 赋权。当 Q/K 是动作预测时，注意力权重反映的是"哪些过去动作与当前预期动作最相关"，而非"哪些过去帧与当前帧最像"
自适应门控融合:
做什么：逐元素门控融合历史注意力输出 \(\tilde{h}_t\) 和当前帧特征 \(e_t\)
核心思路：\(o_t = g_t \odot \tilde{h}_t + (1-g_t) \odot e_t\)，门控 \(g_t = \sigma(\text{MLP}(\tilde{h}_t \| e_t))\)
设计动机：历史上下文和当前视觉证据的相对重要性随时间变化。门控机制让模型自适应决定依赖历史还是当前
训练后可解释性分析:
做什么：通过前向/反向分析揭示模型学到的动作依赖关系和反事实证据
核心思路：前向分析检查给定过去动作时注意力权重的分布（动作依赖）；反向分析检查修改过去动作后预测的变化（反事实推理）
设计动机：因为 Q/K 是动作概率，注意力权重直接反映动作间的语义关系，比像素级注意力更易解释

标准交叉熵损失预测未来动作。使用冻结 backbone + 可训练编码器的模块化设计。FIFO 队列维护时间窗口 S。

EPIC-Kitchens-100 (动作预期):

方法	Val Verb	Val Noun	Val Action	Test-Val Gap
AVT	高	高	中	较大
MemViT	高	高	中	较大
AGA	竞争性	竞争性	竞争性	最小

语义层面的注意力：将注意力从像素级提升到动作概率级是关键创新。这种抽象使模型关注"过去做了什么"而非"过去看起来像什么"，更适合动作预期任务
自我预测的循环利用：用模型自身的预测作为输入（EMA 的动作分布）兼具自回归和非自回归的优点——获得序列依赖但不引入延迟
可解释性的副产品：因为 Q/K 是动作概率，注意力矩阵直接给出"动作A对预测动作B有多大影响"的定量关系，是 Transformer 在视频预期中首次实现的自然可解释性