Predicting Video Slot Attention Queries from Random Slot-Feature Pairs¶
会议: AAAI 2026
arXiv: 2508.01345
代码: https://github.com/Genera1Z/RandSF.Q
领域: 视频理解
关键词: 物体中心学习, 视频目标发现, Slot Attention, 时序建模, 自监督
一句话总结¶
提出 RandSF.Q,通过利用下一帧特征进行信息性查询预测,以及从随机采样的 slot-feature 对学习过渡动力学,显著提升视频物体中心学习(OCL)的查询预测质量,在目标发现任务上超越 SOTA 最多 10 个点。
研究背景与动机¶
领域现状¶
视频物体中心学习(Video OCL)旨在以自监督方式从视频中发现物体,将每个物体表示为一个特征向量(slot),并在帧间跟踪这些物体。主流方法采用循环架构:聚合器(Slot Attention)将当前帧聚合为 slots → 过渡器将当前 slots 转换为下一帧的查询 → 聚合器用查询处理下一帧。
核心痛点 — 两个被忽视的问题¶
问题 (i1):未利用下一帧特征 所有现有过渡器仅基于当前(或历史)slots 预测下一帧查询,但下一帧的特征已经可用且信息量更大。这就好比预测明天的天气时不看明天的卫星云图,只看今天的天气记录——明明有更好的信息却不用。
问题 (i2):未学习过渡动力学 现有过渡器没有适当的归纳偏置来学习真正的过渡动力学知识。作者做了一个惊人的实验:直接移除过渡器,用当前 slots 作为下一帧的查询,结果反而更好!这说明现有过渡器不仅没有效果,反而是有害的。
本文切入角度¶
设计新的过渡器架构(Transformer 解码器而非编码器),同时利用当前 slots 和下一帧特征进行查询预测;通过随机采样 slot-feature 对进行训练,迫使过渡器学习真正的过渡动力学。
方法详解¶
整体框架¶
基于 SlotContrast(当前 SOTA)构建,包含四个组件:
- 编码器 \(\phi_e\)(冻结的 DINO2 ViT):将视频帧编码为特征 \(F_t \in \mathbb{R}^{h \times w \times c}\)
- 聚合器 \(\phi_a\)(Slot Attention):将特征聚合为 slots \(S_t\) 和分割掩码 \(M_t\)
- 过渡器 \(\phi_r\)(新设计的 Transformer 解码器块):将 \(S_t\) 和 \(F_{t+1}\) 转换为下一帧查询 \(Q_{t+1}\)
- 解码器 \(\phi_d\)(随机自回归 Transformer 解码器):从 \(S_t\) 重建特征 \(F_t'\)
目标:\(\arg\min_{\phi_a, \phi_r, \phi_d} \text{MSE}(\{F_t'\}_{t=1}^T, \text{sg}(\{F_t\}_{t=1}^T))\)
关键设计¶
1. 信息性查询预测(Informative Query Prediction)— 解决 (i1)¶
核心改进:将过渡器从 Transformer 编码器改为 Transformer 解码器,以便引入跨注意力从下一帧特征中获取信息。
推理时:过渡器以当前 slots \(S_t\) 为起点,以下一帧特征 \(F_{t+1}\) 为增量信息条件,预测查询:
其中 \(E \in \mathbb{R}^{\Delta \times c}\) 是可学习的相对时间嵌入表。\(E[0]\) 表示"就是目标时间",\(E[1]\) 表示"距目标 1 步"。
与现有方法的对比: - 现有方法 \(\phi_r^1\)(STEVE、SAVi 等):仅从当前 \(S_t\) 预测,使用 Transformer 编码器 - 现有方法 \(\phi_r^2\)(STATM、SlotPi):从所有历史 \(\{S_i\}_{i=1}^t\) 预测,使用多层 Transformer 编码器 - 本文:从 \(S_t + F_{t+1}\) 预测,使用单层 Transformer 解码器(比 \(\phi_r^2\) 轻量得多)
为什么下一帧特征更有信息量? 根据聚合方程 \(\phi_a: Q_t, F_t \rightarrow S_t\),下一帧特征 \(F_{t+1}\) 包含了关于下一帧 slots(也就是下一帧查询)的所有最新信息。
2. 有效查询预测学习(Effective Query Prediction Learning)— 解决 (i2)¶
核心思路:训练时不总是从最近的 slot-feature 对预测查询,而是从可用循环中随机采样的 slot-feature 对预测。
训练时:从时间窗口 \(\Delta\) 内随机采样 slots 和 feature 的时间步:
其中 \(t_1 \sim \mathcal{U}\{t-\Delta+1, ..., t\}\),\(t_2 \sim \mathcal{U}\{t-\Delta+2, ..., t+1\}\)。
设计动机:若过渡器只需处理相邻一帧的差异,它可能学到简单的恒等映射。通过随机采样不同时间步的输入,迫使过渡器真正理解过渡动力学:如何从任意历史状态和特征推断出目标查询。
时间嵌入:\(E[t+1-t_i]\) 通过加和方式注入(实验证明优于拼接方式),告知过渡器输入距目标时间的相对偏移。
推理时与训练时不同:推理时总是使用最近的 slot \(S_t\) 和最新的特征 \(F_{t+1}\)(即 \(E[1]\) 和 \(E[0]\)),以最大化预测精度。
3. 端到端训练,无额外损失¶
与现有过渡器相同,新过渡器通过整体的 MSE 重建损失端到端训练,不需要任何额外的过渡损失。随机 slot-feature 对在不增加训练复杂度的前提下有效提升过渡动力学学习。
损失函数 / 训练策略¶
- 主损失:MSE 重建损失(slots 重建目标为 DINO2 特征)
- 辅助损失:来自 SlotContrast 的 slot-slot 对比损失(ssc)或 VideoSAUR 的时间相似性损失(tsim)
- 窗口大小 \(\Delta = 5\) 或 \(6\)(与训练视频片段长度一致)
- 输入分辨率 256×256(224×224),编码器为 DINO2 ViT-S/14
实验关键数据¶
主实验(视频目标发现)¶
| 方法 | MOVi-C ARIfg | MOVi-D ARIfg | YTVIS ARIfg | YTVIS mIoU |
|---|---|---|---|---|
| STEVE | - | 66.5 | - | - |
| VideoSAUR | 53.3 | 40.0 | 49.2 | 29.7 |
| SlotContrast | 59.9 | 63.9 | 49.4 | 32.8 |
| RandSF.Q (tsim) | 66.3 | 72.0 | 60.4 | 38.5 |
| RandSF.Q (ssc) | 67.4 | 77.5 | 58.0 | 37.2 |
关键结果:在 YTVIS 上,RandSF.Q 超越 SlotContrast 超过 10 个百分点(ARIfg: 49.4→60.4),mIoU 提升近 6 个百分点(32.8→38.5)。
消融实验¶
| 利用下一帧特征 | 随机采样 slot-feature 对 | 注入相对时间 | ARI+ARIfg |
|---|---|---|---|
| ✓ | ✓ | ✓ | 108.0 |
| ✓ | - | ✓ | 99.7 |
| - | ✓ | ✓ | 81.6 |
| - | - | - | 64.6 |
| 采样窗口 \(\Delta\) | 2 | 3 | 4 | 5 |
|---|---|---|---|---|
| ARI+ARIfg | 90.0 | 102.0 | 107.8 | 108.0 |
| 时间注入方式 | 拼接 | 加和 |
|---|---|---|
| ARI+ARIfg | 98.8 | 108.0 |
下游任务¶
| 方法 | 目标识别 top1↑ | 目标识别 top3↑ | VQA per-question↑ |
|---|---|---|---|
| SlotContrast | 19.9 | 49.1 | 95.6 |
| RandSF.Q | 26.1 | 60.9 | 96.3 |
关键发现¶
- 利用下一帧特征是最重要的因素:去掉后性能从 108.0 暴跌至 81.6(-24.4%)
- 随机采样的贡献次之:去掉后从 108.0 降至 99.7(-7.7%),但仍远超 baseline
- 窗口大小与视频片段长度一致时最优:与训练视频片段的时间覆盖范围匹配
- 加和式时间嵌入优于拼接:108.0 vs 98.8,因为加和在每个维度上都注入时间信息
- 过渡动力学学习验证:使用非最新 slot-feature 对推理时,性能虽下降但仍远超 SlotContrast,证明过渡器确实学到了动力学知识
亮点与洞察¶
- "移除过渡器反而更好"的发现极具冲击力:直接质疑了视频 OCL 领域多年来默认使用的 Transformer 编码器过渡器
- "已有信息为何不用"的简单洞察:下一帧特征在推理时已经可用,但所有前人工作都忽视了这一点
- 随机采样训练策略的优雅性:不增加任何额外参数或损失,仅通过改变训练时过渡器的输入配对方式,就迫使模型学习真正的动力学
- Transformer 编码器→解码器的转变:这一架构选择既合理(需要对 feature 做跨注意力)又轻量(仅一个解码器块)
局限与展望¶
- slot 数量固定问题:当前方法仍需预设 slot 数量,无法自适应场景中的实际物体数量。若引入自适应 slot 数量技术,随机采样策略需要重新设计
- 窗口大小受限于训练视频片段长度:更长的视频可能需要更大的窗口,但计算开销会增加
- 仅在自监督场景下验证:在有监督或半监督 video OCL 中的效果未知
- CLEVRER 上提升有限:对于简单合成视频,baseline 已经很高(95.6%),提升空间小
相关工作与启发¶
- Slot Attention (Locatello 2020):物体中心学习的基础模块,本文在此基础上改进过渡器
- SlotContrast (Manasyan 2025):当前 SOTA,是本文的 baseline
- VideoSAUR (Zadaianchuk 2024):首个利用视觉基础模型做视频 OCL 的方法
- DINO2 (Oquab 2023):作为冻结编码器提供特征
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 两个核心洞察(利用下一帧特征 + 随机采样)简单但极有效,且此前完全被忽视
- 实验充分度: ⭐⭐⭐⭐ — 合成+真实数据集 + 下游任务 + 详尽消融 + 动力学验证矩阵
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,motivation 实验有说服力
- 价值: ⭐⭐⭐⭐⭐ — 在视频 OCL 领域推动了显著进展,思路可推广到其他循环架构
相关论文¶
- [CVPR 2026] Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning
- [AAAI 2026] Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers
- [ICLR 2026] VideoNSA: Native Sparse Attention Scales Video Understanding
- [ICLR 2026] Online Time Series Prediction Using Feature Adjustment
- [CVPR 2026] Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning