跳转至

Predicting Video Slot Attention Queries from Random Slot-Feature Pairs

会议: AAAI 2026
arXiv: 2508.01345
代码: https://github.com/Genera1Z/RandSF.Q
领域: 视频理解
关键词: 物体中心学习, 视频目标发现, Slot Attention, 时序建模, 自监督

一句话总结

提出 RandSF.Q,通过利用下一帧特征进行信息性查询预测,以及从随机采样的 slot-feature 对学习过渡动力学,显著提升视频物体中心学习(OCL)的查询预测质量,在目标发现任务上超越 SOTA 最多 10 个点。

研究背景与动机

领域现状

视频物体中心学习(Video OCL)旨在以自监督方式从视频中发现物体,将每个物体表示为一个特征向量(slot),并在帧间跟踪这些物体。主流方法采用循环架构:聚合器(Slot Attention)将当前帧聚合为 slots → 过渡器将当前 slots 转换为下一帧的查询 → 聚合器用查询处理下一帧。

核心痛点 — 两个被忽视的问题

问题 (i1):未利用下一帧特征 所有现有过渡器仅基于当前(或历史)slots 预测下一帧查询,但下一帧的特征已经可用且信息量更大。这就好比预测明天的天气时不看明天的卫星云图,只看今天的天气记录——明明有更好的信息却不用。

问题 (i2):未学习过渡动力学 现有过渡器没有适当的归纳偏置来学习真正的过渡动力学知识。作者做了一个惊人的实验:直接移除过渡器,用当前 slots 作为下一帧的查询,结果反而更好!这说明现有过渡器不仅没有效果,反而是有害的。

本文切入角度

设计新的过渡器架构(Transformer 解码器而非编码器),同时利用当前 slots 和下一帧特征进行查询预测;通过随机采样 slot-feature 对进行训练,迫使过渡器学习真正的过渡动力学。

方法详解

整体框架

基于 SlotContrast(当前 SOTA)构建,包含四个组件:

  1. 编码器 \(\phi_e\)(冻结的 DINO2 ViT):将视频帧编码为特征 \(F_t \in \mathbb{R}^{h \times w \times c}\)
  2. 聚合器 \(\phi_a\)(Slot Attention):将特征聚合为 slots \(S_t\) 和分割掩码 \(M_t\)
  3. 过渡器 \(\phi_r\)新设计的 Transformer 解码器块):将 \(S_t\)\(F_{t+1}\) 转换为下一帧查询 \(Q_{t+1}\)
  4. 解码器 \(\phi_d\)(随机自回归 Transformer 解码器):从 \(S_t\) 重建特征 \(F_t'\)

目标:\(\arg\min_{\phi_a, \phi_r, \phi_d} \text{MSE}(\{F_t'\}_{t=1}^T, \text{sg}(\{F_t\}_{t=1}^T))\)

关键设计

1. 信息性查询预测(Informative Query Prediction)— 解决 (i1)

核心改进:将过渡器从 Transformer 编码器改为 Transformer 解码器,以便引入跨注意力从下一帧特征中获取信息。

推理时:过渡器以当前 slots \(S_t\) 为起点,以下一帧特征 \(F_{t+1}\) 为增量信息条件,预测查询:

\[\phi_r: S_t + E[1], F_{t+1} + E[0] \rightarrow Q_{t+1}\]

其中 \(E \in \mathbb{R}^{\Delta \times c}\) 是可学习的相对时间嵌入表。\(E[0]\) 表示"就是目标时间",\(E[1]\) 表示"距目标 1 步"。

与现有方法的对比: - 现有方法 \(\phi_r^1\)(STEVE、SAVi 等):仅从当前 \(S_t\) 预测,使用 Transformer 编码器 - 现有方法 \(\phi_r^2\)(STATM、SlotPi):从所有历史 \(\{S_i\}_{i=1}^t\) 预测,使用多层 Transformer 编码器 - 本文:从 \(S_t + F_{t+1}\) 预测,使用单层 Transformer 解码器(比 \(\phi_r^2\) 轻量得多)

为什么下一帧特征更有信息量? 根据聚合方程 \(\phi_a: Q_t, F_t \rightarrow S_t\),下一帧特征 \(F_{t+1}\) 包含了关于下一帧 slots(也就是下一帧查询)的所有最新信息。

2. 有效查询预测学习(Effective Query Prediction Learning)— 解决 (i2)

核心思路:训练时不总是从最近的 slot-feature 对预测查询,而是从可用循环中随机采样的 slot-feature 对预测。

训练时:从时间窗口 \(\Delta\) 内随机采样 slots 和 feature 的时间步:

\[\phi_r: S_{t_1} + E[t+1-t_1], F_{t_2} + E[t+1-t_2] \rightarrow Q_{t+1}\]

其中 \(t_1 \sim \mathcal{U}\{t-\Delta+1, ..., t\}\)\(t_2 \sim \mathcal{U}\{t-\Delta+2, ..., t+1\}\)

设计动机:若过渡器只需处理相邻一帧的差异,它可能学到简单的恒等映射。通过随机采样不同时间步的输入,迫使过渡器真正理解过渡动力学:如何从任意历史状态和特征推断出目标查询。

时间嵌入\(E[t+1-t_i]\) 通过加和方式注入(实验证明优于拼接方式),告知过渡器输入距目标时间的相对偏移。

推理时与训练时不同:推理时总是使用最近的 slot \(S_t\) 和最新的特征 \(F_{t+1}\)(即 \(E[1]\)\(E[0]\)),以最大化预测精度。

3. 端到端训练,无额外损失

与现有过渡器相同,新过渡器通过整体的 MSE 重建损失端到端训练,不需要任何额外的过渡损失。随机 slot-feature 对在不增加训练复杂度的前提下有效提升过渡动力学学习。

损失函数 / 训练策略

  • 主损失:MSE 重建损失(slots 重建目标为 DINO2 特征)
  • 辅助损失:来自 SlotContrast 的 slot-slot 对比损失(ssc)或 VideoSAUR 的时间相似性损失(tsim)
  • 窗口大小 \(\Delta = 5\)\(6\)(与训练视频片段长度一致)
  • 输入分辨率 256×256(224×224),编码器为 DINO2 ViT-S/14

实验关键数据

主实验(视频目标发现)

方法 MOVi-C ARIfg MOVi-D ARIfg YTVIS ARIfg YTVIS mIoU
STEVE - 66.5 - -
VideoSAUR 53.3 40.0 49.2 29.7
SlotContrast 59.9 63.9 49.4 32.8
RandSF.Q (tsim) 66.3 72.0 60.4 38.5
RandSF.Q (ssc) 67.4 77.5 58.0 37.2

关键结果:在 YTVIS 上,RandSF.Q 超越 SlotContrast 超过 10 个百分点(ARIfg: 49.4→60.4),mIoU 提升近 6 个百分点(32.8→38.5)。

消融实验

利用下一帧特征 随机采样 slot-feature 对 注入相对时间 ARI+ARIfg
108.0
- 99.7
- 81.6
- - - 64.6
采样窗口 \(\Delta\) 2 3 4 5
ARI+ARIfg 90.0 102.0 107.8 108.0
时间注入方式 拼接 加和
ARI+ARIfg 98.8 108.0

下游任务

方法 目标识别 top1↑ 目标识别 top3↑ VQA per-question↑
SlotContrast 19.9 49.1 95.6
RandSF.Q 26.1 60.9 96.3

关键发现

  1. 利用下一帧特征是最重要的因素:去掉后性能从 108.0 暴跌至 81.6(-24.4%)
  2. 随机采样的贡献次之:去掉后从 108.0 降至 99.7(-7.7%),但仍远超 baseline
  3. 窗口大小与视频片段长度一致时最优:与训练视频片段的时间覆盖范围匹配
  4. 加和式时间嵌入优于拼接:108.0 vs 98.8,因为加和在每个维度上都注入时间信息
  5. 过渡动力学学习验证:使用非最新 slot-feature 对推理时,性能虽下降但仍远超 SlotContrast,证明过渡器确实学到了动力学知识

亮点与洞察

  1. "移除过渡器反而更好"的发现极具冲击力:直接质疑了视频 OCL 领域多年来默认使用的 Transformer 编码器过渡器
  2. "已有信息为何不用"的简单洞察:下一帧特征在推理时已经可用,但所有前人工作都忽视了这一点
  3. 随机采样训练策略的优雅性:不增加任何额外参数或损失,仅通过改变训练时过渡器的输入配对方式,就迫使模型学习真正的动力学
  4. Transformer 编码器→解码器的转变:这一架构选择既合理(需要对 feature 做跨注意力)又轻量(仅一个解码器块)

局限与展望

  1. slot 数量固定问题:当前方法仍需预设 slot 数量,无法自适应场景中的实际物体数量。若引入自适应 slot 数量技术,随机采样策略需要重新设计
  2. 窗口大小受限于训练视频片段长度:更长的视频可能需要更大的窗口,但计算开销会增加
  3. 仅在自监督场景下验证:在有监督或半监督 video OCL 中的效果未知
  4. CLEVRER 上提升有限:对于简单合成视频,baseline 已经很高(95.6%),提升空间小

相关工作与启发

  • Slot Attention (Locatello 2020):物体中心学习的基础模块,本文在此基础上改进过渡器
  • SlotContrast (Manasyan 2025):当前 SOTA,是本文的 baseline
  • VideoSAUR (Zadaianchuk 2024):首个利用视觉基础模型做视频 OCL 的方法
  • DINO2 (Oquab 2023):作为冻结编码器提供特征

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 两个核心洞察(利用下一帧特征 + 随机采样)简单但极有效,且此前完全被忽视
  • 实验充分度: ⭐⭐⭐⭐ — 合成+真实数据集 + 下游任务 + 详尽消融 + 动力学验证矩阵
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,motivation 实验有说服力
  • 价值: ⭐⭐⭐⭐⭐ — 在视频 OCL 领域推动了显著进展,思路可推广到其他循环架构

相关论文