Predicting Video Slot Attention Queries from Random Slot-Feature Pairs¶

会议: AAAI 2026
arXiv: 2508.01345
代码: https://github.com/Genera1Z/RandSF.Q
领域: 视频理解
关键词: 物体中心学习, 视频目标发现, Slot Attention, 时序建模, 自监督

一句话总结¶

提出 RandSF.Q，通过利用下一帧特征进行信息性查询预测，以及从随机采样的 slot-feature 对学习过渡动力学，显著提升视频物体中心学习（OCL）的查询预测质量，在目标发现任务上超越 SOTA 最多 10 个点。

研究背景与动机¶

领域现状¶

视频物体中心学习（Video OCL）旨在以自监督方式从视频中发现物体，将每个物体表示为一个特征向量（slot），并在帧间跟踪这些物体。主流方法采用循环架构：聚合器（Slot Attention）将当前帧聚合为 slots → 过渡器将当前 slots 转换为下一帧的查询 → 聚合器用查询处理下一帧。

核心痛点 — 两个被忽视的问题¶

问题 (i1)：未利用下一帧特征 所有现有过渡器仅基于当前（或历史）slots 预测下一帧查询，但下一帧的特征已经可用且信息量更大。这就好比预测明天的天气时不看明天的卫星云图，只看今天的天气记录——明明有更好的信息却不用。

问题 (i2)：未学习过渡动力学 现有过渡器没有适当的归纳偏置来学习真正的过渡动力学知识。作者做了一个惊人的实验：直接移除过渡器，用当前 slots 作为下一帧的查询，结果反而更好！这说明现有过渡器不仅没有效果，反而是有害的。

本文切入角度¶

设计新的过渡器架构（Transformer 解码器而非编码器），同时利用当前 slots 和下一帧特征进行查询预测；通过随机采样 slot-feature 对进行训练，迫使过渡器学习真正的过渡动力学。

方法详解¶

整体框架¶

基于 SlotContrast（当前 SOTA）构建，包含四个组件：

编码器 \(\phi_e\)（冻结的 DINO2 ViT）：将视频帧编码为特征 \(F_t \in \mathbb{R}^{h \times w \times c}\)
聚合器 \(\phi_a\)（Slot Attention）：将特征聚合为 slots \(S_t\) 和分割掩码 \(M_t\)
过渡器 \(\phi_r\)（新设计的 Transformer 解码器块）：将 \(S_t\) 和 \(F_{t+1}\) 转换为下一帧查询 \(Q_{t+1}\)
解码器 \(\phi_d\)（随机自回归 Transformer 解码器）：从 \(S_t\) 重建特征 \(F_t'\)

目标：\(\arg\min_{\phi_a, \phi_r, \phi_d} \text{MSE}(\{F_t'\}_{t=1}^T, \text{sg}(\{F_t\}_{t=1}^T))\)

关键设计¶

1. 信息性查询预测（Informative Query Prediction）— 解决 (i1)¶

核心改进：将过渡器从 Transformer 编码器改为 Transformer 解码器，以便引入跨注意力从下一帧特征中获取信息。

推理时：过渡器以当前 slots \(S_t\) 为起点，以下一帧特征 \(F_{t+1}\) 为增量信息条件，预测查询：

\[\phi_r: S_t + E[1], F_{t+1} + E[0] \rightarrow Q_{t+1}\]

其中 \(E \in \mathbb{R}^{\Delta \times c}\) 是可学习的相对时间嵌入表。\(E[0]\) 表示"就是目标时间"，\(E[1]\) 表示"距目标 1 步"。

与现有方法的对比： - 现有方法 \(\phi_r^1\)（STEVE、SAVi 等）：仅从当前 \(S_t\) 预测，使用 Transformer 编码器 - 现有方法 \(\phi_r^2\)（STATM、SlotPi）：从所有历史 \(\{S_i\}_{i=1}^t\) 预测，使用多层 Transformer 编码器 - 本文：从 \(S_t + F_{t+1}\) 预测，使用单层 Transformer 解码器（比 \(\phi_r^2\) 轻量得多）

为什么下一帧特征更有信息量？ 根据聚合方程 \(\phi_a: Q_t, F_t \rightarrow S_t\)，下一帧特征 \(F_{t+1}\) 包含了关于下一帧 slots（也就是下一帧查询）的所有最新信息。

2. 有效查询预测学习（Effective Query Prediction Learning）— 解决 (i2)¶

核心思路：训练时不总是从最近的 slot-feature 对预测查询，而是从可用循环中随机采样的 slot-feature 对预测。

训练时：从时间窗口 \(\Delta\) 内随机采样 slots 和 feature 的时间步：

\[\phi_r: S_{t_1} + E[t+1-t_1], F_{t_2} + E[t+1-t_2] \rightarrow Q_{t+1}\]

其中 \(t_1 \sim \mathcal{U}\{t-\Delta+1, ..., t\}\)，\(t_2 \sim \mathcal{U}\{t-\Delta+2, ..., t+1\}\)。

设计动机：若过渡器只需处理相邻一帧的差异，它可能学到简单的恒等映射。通过随机采样不同时间步的输入，迫使过渡器真正理解过渡动力学：如何从任意历史状态和特征推断出目标查询。

时间嵌入：\(E[t+1-t_i]\) 通过加和方式注入（实验证明优于拼接方式），告知过渡器输入距目标时间的相对偏移。

推理时与训练时不同：推理时总是使用最近的 slot \(S_t\) 和最新的特征 \(F_{t+1}\)（即 \(E[1]\) 和 \(E[0]\)），以最大化预测精度。

3. 端到端训练，无额外损失¶

与现有过渡器相同，新过渡器通过整体的 MSE 重建损失端到端训练，不需要任何额外的过渡损失。随机 slot-feature 对在不增加训练复杂度的前提下有效提升过渡动力学学习。

损失函数 / 训练策略¶

主损失：MSE 重建损失（slots 重建目标为 DINO2 特征）
辅助损失：来自 SlotContrast 的 slot-slot 对比损失（ssc）或 VideoSAUR 的时间相似性损失（tsim）
窗口大小 \(\Delta = 5\) 或 \(6\)（与训练视频片段长度一致）
输入分辨率 256×256（224×224），编码器为 DINO2 ViT-S/14

实验关键数据¶

主实验（视频目标发现）¶

方法	MOVi-C ARIfg	MOVi-D ARIfg	YTVIS ARIfg	YTVIS mIoU
STEVE	-	66.5	-	-
VideoSAUR	53.3	40.0	49.2	29.7
SlotContrast	59.9	63.9	49.4	32.8
RandSF.Q (tsim)	66.3	72.0	60.4	38.5
RandSF.Q (ssc)	67.4	77.5	58.0	37.2

关键结果：在 YTVIS 上，RandSF.Q 超越 SlotContrast 超过 10 个百分点（ARIfg: 49.4→60.4），mIoU 提升近 6 个百分点（32.8→38.5）。

消融实验¶

利用下一帧特征	随机采样 slot-feature 对	注入相对时间	ARI+ARIfg
✓	✓	✓	108.0
✓	-	✓	99.7
-	✓	✓	81.6
-	-	-	64.6

采样窗口 \(\Delta\)	2	3	4	5
ARI+ARIfg	90.0	102.0	107.8	108.0

时间注入方式	拼接	加和
ARI+ARIfg	98.8	108.0

下游任务¶

方法	目标识别 top1↑	目标识别 top3↑	VQA per-question↑
SlotContrast	19.9	49.1	95.6
RandSF.Q	26.1	60.9	96.3

关键发现¶

利用下一帧特征是最重要的因素：去掉后性能从 108.0 暴跌至 81.6（-24.4%）
随机采样的贡献次之：去掉后从 108.0 降至 99.7（-7.7%），但仍远超 baseline
窗口大小与视频片段长度一致时最优：与训练视频片段的时间覆盖范围匹配
加和式时间嵌入优于拼接：108.0 vs 98.8，因为加和在每个维度上都注入时间信息
过渡动力学学习验证：使用非最新 slot-feature 对推理时，性能虽下降但仍远超 SlotContrast，证明过渡器确实学到了动力学知识

亮点与洞察¶

"移除过渡器反而更好"的发现极具冲击力：直接质疑了视频 OCL 领域多年来默认使用的 Transformer 编码器过渡器
"已有信息为何不用"的简单洞察：下一帧特征在推理时已经可用，但所有前人工作都忽视了这一点
随机采样训练策略的优雅性：不增加任何额外参数或损失，仅通过改变训练时过渡器的输入配对方式，就迫使模型学习真正的动力学
Transformer 编码器→解码器的转变：这一架构选择既合理（需要对 feature 做跨注意力）又轻量（仅一个解码器块）

局限与展望¶

slot 数量固定问题：当前方法仍需预设 slot 数量，无法自适应场景中的实际物体数量。若引入自适应 slot 数量技术，随机采样策略需要重新设计
窗口大小受限于训练视频片段长度：更长的视频可能需要更大的窗口，但计算开销会增加
仅在自监督场景下验证：在有监督或半监督 video OCL 中的效果未知
CLEVRER 上提升有限：对于简单合成视频，baseline 已经很高（95.6%），提升空间小

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 两个核心洞察（利用下一帧特征 + 随机采样）简单但极有效，且此前完全被忽视
实验充分度: ⭐⭐⭐⭐ — 合成+真实数据集 + 下游任务 + 详尽消融 + 动力学验证矩阵
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，motivation 实验有说服力
价值: ⭐⭐⭐⭐⭐ — 在视频 OCL 领域推动了显著进展，思路可推广到其他循环架构