Action-Guided Attention for Video Action Anticipation¶
会议: ICLR 2026
arXiv: 2603.01743
代码: 无
领域: 视频理解
关键词: 动作预期, 注意力机制, 视频Transformer, 可解释性, EPIC-Kitchens
一句话总结¶
提出动作引导注意力 (AGA) 机制,用模型自身的动作预测序列作为注意力的 Query 和 Key(而非像素特征),结合自适应门控融合历史上下文和当前帧特征,在 EPIC-Kitchens-100 上实现从验证集到测试集的良好泛化,同时支持训练后的可解释性分析。
研究背景与动机¶
- 领域现状:视频动作预期(从当前帧预测未来动作)是计算机视觉的重要任务。Transformer 架构已成为主流范式。
- 现有痛点:标准自注意力基于像素级特征的点积,缺乏建模未来动作所需的高层语义。这导致模型过拟合于过去帧的显式视觉线索,而非捕捉潜在意图。从验证集到测试集的性能下降显著。
- 核心矛盾:动作预期本质上是非确定性的——同样的过去观察可能导致多种未来结果。像素级注意力容易被视觉噪声误导,无法建模动作间的语义依赖关系。
- 本文要解决什么? 设计一种注意力机制,能利用高层动作语义而非底层像素特征来引导序列建模。
- 切入角度:将动作预测概率(而非特征向量)作为 Q/K,利用动作间的语义相关性来选择相关的历史时刻,然后通过门控与当前帧融合。
- 核心 idea 一句话:用模型自身的动作预测序列做注意力引导,使注意力聚焦于"语义相关的过去时刻"而非"视觉相似的过去帧"。
方法详解¶
整体框架¶
输入视频帧经 backbone 提取特征后,AGA 模块用动作预测的 EMA 作为 Query、最近 S 步的动作预测作为 Key、对应的帧特征作为 Value 做多头注意力,得到历史上下文 \(\tilde{h}_t\),再通过自适应门控与当前帧特征 \(e_t\) 融合,最终预测未来动作。
关键设计¶
- 动作引导的 Query/Key:
- 做什么:用预测的动作概率分布(而非视觉特征)构建注意力的 Query 和 Key
- 核心思路:\(K_t = E_K(\hat{y}_{t-S:t-1})\),\(Q_t = E_Q(\bar{y}_t)\),其中 \(\bar{y}_t = \alpha \hat{y}_{t-1} + (1-\alpha)\bar{y}_{t-1}\) 是动作预测的 EMA。Value 仍为帧级视觉特征 \(V_t = E_V(e_{t-S:t-1})\)
-
设计动机:点积注意力通过 Q/K 相关性为 V 赋权。当 Q/K 是动作预测时,注意力权重反映的是"哪些过去动作与当前预期动作最相关",而非"哪些过去帧与当前帧最像"
-
自适应门控融合:
- 做什么:逐元素门控融合历史注意力输出 \(\tilde{h}_t\) 和当前帧特征 \(e_t\)
- 核心思路:\(o_t = g_t \odot \tilde{h}_t + (1-g_t) \odot e_t\),门控 \(g_t = \sigma(\text{MLP}(\tilde{h}_t \| e_t))\)
-
设计动机:历史上下文和当前视觉证据的相对重要性随时间变化。门控机制让模型自适应决定依赖历史还是当前
-
训练后可解释性分析:
- 做什么:通过前向/反向分析揭示模型学到的动作依赖关系和反事实证据
- 核心思路:前向分析检查给定过去动作时注意力权重的分布(动作依赖);反向分析检查修改过去动作后预测的变化(反事实推理)
- 设计动机:因为 Q/K 是动作概率,注意力权重直接反映动作间的语义关系,比像素级注意力更易解释
损失函数 / 训练策略¶
标准交叉熵损失预测未来动作。使用冻结 backbone + 可训练编码器的模块化设计。FIFO 队列维护时间窗口 S。
实验关键数据¶
主实验¶
EPIC-Kitchens-100 (动作预期):
| 方法 | Val Verb | Val Noun | Val Action | Test-Val Gap |
|---|---|---|---|---|
| AVT | 高 | 高 | 中 | 较大 |
| MemViT | 高 | 高 | 中 | 较大 |
| AGA | 竞争性 | 竞争性 | 竞争性 | 最小 |
消融实验¶
| 配置 | 性能 | 说明 |
|---|---|---|
| AGA (完整) | 最佳泛化 | 动作引导Q/K + 门控 |
| 标准自注意力 | 过拟合 | Val 好但 Test 下降大 |
| 无门控 (仅历史) | 下降 | 缺少当前帧信息 |
| 无EMA (直接用上一步预测) | 略降 | EMA 提供更稳定的长程信号 |
关键发现¶
- AGA 从验证集到测试集的性能差距一致小于基线,表明更强的泛化能力和更少的过拟合
- 在 EPIC-Kitchens-55 和 EGTEA Gaze+ 上也表现稳健
- 训练后分析揭示了有意义的动作依赖关系(如"拿起→放置"的高注意力权重),验证了动作引导的语义合理性
- EMA 系数 \(\alpha=0.8\) 在多数设置下最优,对超参数不太敏感
亮点与洞察¶
- 语义层面的注意力:将注意力从像素级提升到动作概率级是关键创新。这种抽象使模型关注"过去做了什么"而非"过去看起来像什么",更适合动作预期任务
- 自我预测的循环利用:用模型自身的预测作为输入(EMA 的动作分布)兼具自回归和非自回归的优点——获得序列依赖但不引入延迟
- 可解释性的副产品:因为 Q/K 是动作概率,注意力矩阵直接给出"动作A对预测动作B有多大影响"的定量关系,是 Transformer 在视频预期中首次实现的自然可解释性
局限性 / 可改进方向¶
- 仅用 RGB 视频帧,未整合多模态信息(文本、音频、光流)
- 动作预测的 EMA 在序列开始时可能不够稳定(冷启动问题)
- FIFO 队列大小 S 是固定超参数,自适应窗口可能更好
- 实验仅在厨房场景 (EPIC-Kitchens) 上验证
相关工作与启发¶
- vs AVT: AVT 用标准因果注意力在视觉 token 上;AGA 用动作预测做 Q/K,避免了像素级过拟合
- vs MemViT: MemViT 通过 token 压缩存储更长历史;AGA 通过 EMA 隐式编码长程依赖,更轻量
- vs AFFT: AFFT 融合多模态但仍用标准注意力;AGA 在单模态下通过改变注意力设计获得泛化提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 动作概率做注意力Q/K的设计新颖且直觉自然
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+消融+可解释性分析
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,可解释性分析有趣
- 价值: ⭐⭐⭐⭐ 为视频动作预期的注意力设计提供了新思路