跳转至

SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding

会议: CVPR 2026
arXiv: 2603.25733
代码: 无
领域: 视频理解 / 时序定位
关键词: 视频时序定位, 对象中心学习, Slot Attention, 域外泛化, 多模态大模型

一句话总结

提出SlotVTG框架,通过在MLLM解码器早期层插入轻量级Slot Adapter将视觉token分解为对象级slot表示,辅以DINOv2先验的Slot Alignment Loss引导语义一致的slot形成,显著提升视频时序定位的域外泛化性能(OOD R1@0.5最大提升+4.3),同时仅增加约0.25%的可训练参数。

研究背景与动机

  1. 领域现状:多模态大语言模型(MLLM)已成为视频时序定位(VTG)的主流方案,但需要在特定数据集上微调才能获得精细的时间理解能力。
  2. 现有痛点:VTG标注需要精确的起止时间戳,大规模数据收集极其昂贵,导致训练数据有限。微调在有限数据上会记忆数据集特有的快捷方式(时间位置偏差、查询文本偏差、外观偏差等),导致域外(OOD)测试性能严重下降。
  3. 核心矛盾:模型在域内(ID)表现优秀但OOD大幅退化——在Charades-STA训练后ID达63.4 R1@0.5但OOD仅43.6(-31.2%)。噪声扰动实验证实OOD时模型不再关注目标视觉内容。
  4. 本文目标:让微调后的MLLM真正基于视觉内容进行grounding,而非依赖域特定模式,从而提升OOD泛化。
  5. 切入角度:对象中心学习将场景分解为实体级表示,本质上提取了域不变的视觉特征。测量表明slot表示的MMD域间距离比基线降低49.6%。
  6. 核心 idea:用Slot Attention瓶颈强制视觉信息经过对象级分解再流入LLM,抑制域特定关联。

方法详解

整体框架

视频帧经冻结视觉编码器提取token并投影到LLM解码器空间,在早期解码器层插入Slot Adapter——视觉token先降维,经迭代slot attention分解为少量抽象slot,再通过交叉注意力重建原token序列(带残差连接)。重建后的token进入更深层(用LoRA微调)进行时间推理和答案生成。文本token全程绕过Slot Adapter。

关键设计

  1. Slot Adapter:

    • 功能:将密集视觉token分解为少量(\(N_s=4\))抽象slot,再重建回原序列
    • 核心思路:先用\(W_{down}\)降维(\(D \to d\), \(d=512\)),然后\(N_s\)个可学习slot查询通过\(I=3\)轮迭代slot attention与token竞争性绑定——沿slot轴softmax实现"赢者通吃"分配,再沿token轴归一化后加权聚合更新slot(用GRU递推)。重建阶段用交叉注意力(原token作query,slot作key/value),再\(W_{up}\)升维回\(D\),通过零初始化投影+残差连接确保训练初期是恒等映射
    • 设计动机:slot attention的竞争机制迫使每个slot专注于一个语义实体(人、物体、背景),形成的实体级表示比原始逐patch token更具域不变性。瓶颈结构天然过滤域特定噪声
  2. 早期层插入策略:

    • 功能:在解码器layer 1-7插入Slot Adapter,更深层用LoRA
    • 核心思路:研究表明跨帧交互发生在早期层,深层处理语言整合和答案生成。在早期层插入使每个slot能捕获跨帧的时间一致语义,而非逐帧独立分解。深层LoRA在已分解的表示上进行时间推理
    • 设计动机:如果在深层插入,slot分解发生在特征已充分融合语言之后,难以隔离视觉域特定模式
  3. Slot Alignment Loss:

    • 功能:引导slot attention map形成语义一致的分组
    • 核心思路:计算slot注意力权重\(A\)的token对相似度矩阵\(M_{slot} = 2(\bar{A}\bar{A}^T) - 1\),同时从冻结DINOv2提取特征计算\(M_{dino} = \bar{F}_{dino}\bar{F}_{dino}^T\),用余弦相似度\(\mathcal{L}_{SA} = 1 - \frac{1}{T}\sum_t \cos(M_{slot}^{(t)}, M_{dino}^{(t)})\)对齐两者。这利用DINOv2自监督学到的objectness先验来引导slot的语义一致性
    • 设计动机:纯靠瓶颈结构,slot可能形成任意聚类。DINOv2的特征天然反映物体/背景边界,作为"教师信号"引导有意义的分解

损失函数 / 训练策略

\(\mathcal{L}_{total} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{SA}\)\(\lambda=0.1\)

视觉编码器冻结,Slot Adapter和LoRA联合优化。3B模型可训练参数约7.6M(0.25%),7B约23.3M(0.33%)。AdamW优化器,学习率\(5 \times 10^{-5}\),训练5个epoch,batch size 32,8×3090/4090 GPU。

实验关键数据

主实验

Charades-STA→其他(3B backbone,R1@0.5):

方法 Cha.(ID) ANet(OOD) QVH(OOD)
Chrono-Qwen 63.4 26.3 43.6
SlotVTG 64.0 28.7 47.9
Δ +0.6 +2.4 +4.3

QVHighlights→其他(3B backbone,R1@0.5):

方法 QVH(ID) Cha.(OOD) ANet(OOD)
Chrono-Qwen 79.1 45.7 35.3
SlotVTG 79.5 46.6 35.7

7B模型OOD增益更大:Cha.→ANet +4.0, Cha.→QVH +4.1 R1@0.5。

消融实验

组件 Cha.(ID) R1@0.5 ANet(OOD) R1@0.5
LoRA only 63.4 26.3
Self-attention adapter 63.5 26.5
Slot Adapter 64.0 28.7
Slot Adapter w/o \(\mathcal{L}_{SA}\) 63.3 28.0
Slot Adapter + \(\mathcal{L}_{SA}\) (\(\lambda\)=0.1) 64.0 28.7
Slot Adapter + \(\mathcal{L}_{SA}\) (\(\lambda\)=0.2) 64.3 26.1

层插入位置:

层范围 ANet(OOD) R1@0.5
1-7(早期) 28.7
10-17(中间) 27.5
20-36(深层) 28.4

关键发现

  • Slot Adapter vs 普通自注意力adapter:OOD提升显著(28.7 vs 26.5),证实是slot attention的实体分解机制而非简单瓶颈在起作用
  • SA Loss的\(\lambda\)敏感:0.1最优,0.2反而OOD下降(26.1),过强的objectness先验会约束模型灵活性
  • 早期层插入最优:layer 1-7 > 10-17 > 20-36,与"早期层处理跨帧视觉交互"的假设一致
  • 交叉注意力重建优于简单复制+投影:OOD R1@0.7达14.9 vs 13.7
  • Slot可视化显示在ID和OOD上均能分解为人、物体、背景等语义区域,且无需目标域监督
  • MMD域间距离从0.192降到0.097(-49.6%),定量证实域差异缩小

亮点与洞察

  • 诊断实验非常有说服力:噪声扰动实验清晰揭示OOD时模型不看视觉内容——GT段和随机段加噪声的性能下降几乎一样(12.6% vs 12.1%),这比简单报告OOD下降更能说明问题本质
  • 极低参数成本的OOD提升:仅0.25%可训练参数就能获得4+个点的OOD提升,且是即插即用到现有微调MLLM的adapter,不需要重新训练VL对齐
  • Slot作为域不变瓶颈:物体级别的分解天然比patch级token更抗域偏移,这个insight可通用于其他需要OOD泛化的视觉-语言任务

局限与展望

  • 仅4个slot,对复杂场景(多人多物体)可能不够,但增加到8个slot效果反而略下降
  • 仅在VTG任务上验证,slot adapter能否提升其他视频任务(如视频QA、视频描述)的OOD泛化还需探索
  • SA Loss仅在最后一层adapter层施加,多层联合约束可能更优
  • 未探索时间维度的slot一致性约束(如相邻帧同一slot应跟踪同一实体)
  • QVHighlights作为源数据集时OOD提升较小,因数据本身域分布已较广

相关工作与启发

  • vs Slot-VLM: 用双分支对象-事件slot分解视频token,但需要从头训练整个VL pipeline。SlotVTG用adapter形式即插即用,显著降低训练成本
  • vs Chrono: 用交错帧-时间戳表示实现生成式VTG,SlotVTG在其基础上加入对象中心分解,证明是互补的改进
  • vs DETR-based方法(EaTR, CG-DETR): 这些专用模型OOD退化更严重,证实了MLLM+对象中心adapter是更有前景的组合

评分

  • 新颖性: ⭐⭐⭐⭐ 将slot attention作为adapter引入MLLM处理VTG的OOD问题,角度新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 诊断分析、跨域评估、详尽消融、可视化、域距离量化
  • 写作质量: ⭐⭐⭐⭐⭐ 问题诊断→方案设计→验证的逻辑链极其清晰
  • 价值: ⭐⭐⭐⭐ 对VTG的OOD泛化有实际推动,adapter设计可推广到其他视频任务

相关论文