SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding¶

会议: CVPR 2026
arXiv: 2603.25733
代码: 无
领域: 视频理解 / 时序定位
关键词: 视频时序定位, 对象中心学习, Slot Attention, 域外泛化, 多模态大模型

一句话总结¶

提出SlotVTG框架，通过在MLLM解码器早期层插入轻量级Slot Adapter将视觉token分解为对象级slot表示，辅以DINOv2先验的Slot Alignment Loss引导语义一致的slot形成，显著提升视频时序定位的域外泛化性能（OOD R1@0.5最大提升+4.3），同时仅增加约0.25%的可训练参数。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）已成为视频时序定位（VTG）的主流方案，但需要在特定数据集上微调才能获得精细的时间理解能力。
现有痛点：VTG标注需要精确的起止时间戳，大规模数据收集极其昂贵，导致训练数据有限。微调在有限数据上会记忆数据集特有的快捷方式（时间位置偏差、查询文本偏差、外观偏差等），导致域外（OOD）测试性能严重下降。
核心矛盾：模型在域内（ID）表现优秀但OOD大幅退化——在Charades-STA训练后ID达63.4 R1@0.5但OOD仅43.6（-31.2%）。噪声扰动实验证实OOD时模型不再关注目标视觉内容。
本文目标：让微调后的MLLM真正基于视觉内容进行grounding，而非依赖域特定模式，从而提升OOD泛化。
切入角度：对象中心学习将场景分解为实体级表示，本质上提取了域不变的视觉特征。测量表明slot表示的MMD域间距离比基线降低49.6%。
核心 idea：用Slot Attention瓶颈强制视觉信息经过对象级分解再流入LLM，抑制域特定关联。

方法详解¶

整体框架¶

视频帧经冻结视觉编码器提取token并投影到LLM解码器空间，在早期解码器层插入Slot Adapter——视觉token先降维，经迭代slot attention分解为少量抽象slot，再通过交叉注意力重建原token序列（带残差连接）。重建后的token进入更深层（用LoRA微调）进行时间推理和答案生成。文本token全程绕过Slot Adapter。

关键设计¶

Slot Adapter:
- 功能：将密集视觉token分解为少量（\(N_s=4\)）抽象slot，再重建回原序列
- 核心思路：先用\(W_{down}\)降维（\(D \to d\), \(d=512\)），然后\(N_s\)个可学习slot查询通过\(I=3\)轮迭代slot attention与token竞争性绑定——沿slot轴softmax实现"赢者通吃"分配，再沿token轴归一化后加权聚合更新slot（用GRU递推）。重建阶段用交叉注意力（原token作query，slot作key/value），再\(W_{up}\)升维回\(D\)，通过零初始化投影+残差连接确保训练初期是恒等映射
- 设计动机：slot attention的竞争机制迫使每个slot专注于一个语义实体（人、物体、背景），形成的实体级表示比原始逐patch token更具域不变性。瓶颈结构天然过滤域特定噪声
早期层插入策略:
- 功能：在解码器layer 1-7插入Slot Adapter，更深层用LoRA
- 核心思路：研究表明跨帧交互发生在早期层，深层处理语言整合和答案生成。在早期层插入使每个slot能捕获跨帧的时间一致语义，而非逐帧独立分解。深层LoRA在已分解的表示上进行时间推理
- 设计动机：如果在深层插入，slot分解发生在特征已充分融合语言之后，难以隔离视觉域特定模式
Slot Alignment Loss:
- 功能：引导slot attention map形成语义一致的分组
- 核心思路：计算slot注意力权重\(A\)的token对相似度矩阵\(M_{slot} = 2(\bar{A}\bar{A}^T) - 1\)，同时从冻结DINOv2提取特征计算\(M_{dino} = \bar{F}_{dino}\bar{F}_{dino}^T\)，用余弦相似度\(\mathcal{L}_{SA} = 1 - \frac{1}{T}\sum_t \cos(M_{slot}^{(t)}, M_{dino}^{(t)})\)对齐两者。这利用DINOv2自监督学到的objectness先验来引导slot的语义一致性
- 设计动机：纯靠瓶颈结构，slot可能形成任意聚类。DINOv2的特征天然反映物体/背景边界，作为"教师信号"引导有意义的分解

损失函数 / 训练策略¶

\(\mathcal{L}_{total} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{SA}\)，\(\lambda=0.1\)。

视觉编码器冻结，Slot Adapter和LoRA联合优化。3B模型可训练参数约7.6M（0.25%），7B约23.3M（0.33%）。AdamW优化器，学习率\(5 \times 10^{-5}\)，训练5个epoch，batch size 32，8×3090/4090 GPU。

实验关键数据¶

主实验¶

Charades-STA→其他（3B backbone，R1@0.5）：

方法	Cha.(ID)	ANet(OOD)	QVH(OOD)
Chrono-Qwen	63.4	26.3	43.6
SlotVTG	64.0	28.7	47.9
Δ	+0.6	+2.4	+4.3

QVHighlights→其他（3B backbone，R1@0.5）：

方法	QVH(ID)	Cha.(OOD)	ANet(OOD)
Chrono-Qwen	79.1	45.7	35.3
SlotVTG	79.5	46.6	35.7

7B模型OOD增益更大：Cha.→ANet +4.0, Cha.→QVH +4.1 R1@0.5。

消融实验¶

组件	Cha.(ID) R1@0.5	ANet(OOD) R1@0.5
LoRA only	63.4	26.3
Self-attention adapter	63.5	26.5
Slot Adapter	64.0	28.7
Slot Adapter w/o \(\mathcal{L}_{SA}\)	63.3	28.0
Slot Adapter + \(\mathcal{L}_{SA}\) (\(\lambda\)=0.1)	64.0	28.7
Slot Adapter + \(\mathcal{L}_{SA}\) (\(\lambda\)=0.2)	64.3	26.1

层插入位置：

层范围	ANet(OOD) R1@0.5
1-7（早期）	28.7
10-17（中间）	27.5
20-36（深层）	28.4

关键发现¶

Slot Adapter vs 普通自注意力adapter：OOD提升显著（28.7 vs 26.5），证实是slot attention的实体分解机制而非简单瓶颈在起作用
SA Loss的\(\lambda\)敏感：0.1最优，0.2反而OOD下降（26.1），过强的objectness先验会约束模型灵活性
早期层插入最优：layer 1-7 > 10-17 > 20-36，与"早期层处理跨帧视觉交互"的假设一致
交叉注意力重建优于简单复制+投影：OOD R1@0.7达14.9 vs 13.7
Slot可视化显示在ID和OOD上均能分解为人、物体、背景等语义区域，且无需目标域监督
MMD域间距离从0.192降到0.097（-49.6%），定量证实域差异缩小

亮点与洞察¶

诊断实验非常有说服力：噪声扰动实验清晰揭示OOD时模型不看视觉内容——GT段和随机段加噪声的性能下降几乎一样（12.6% vs 12.1%），这比简单报告OOD下降更能说明问题本质
极低参数成本的OOD提升：仅0.25%可训练参数就能获得4+个点的OOD提升，且是即插即用到现有微调MLLM的adapter，不需要重新训练VL对齐
Slot作为域不变瓶颈：物体级别的分解天然比patch级token更抗域偏移，这个insight可通用于其他需要OOD泛化的视觉-语言任务

局限与展望¶

仅4个slot，对复杂场景（多人多物体）可能不够，但增加到8个slot效果反而略下降
仅在VTG任务上验证，slot adapter能否提升其他视频任务（如视频QA、视频描述）的OOD泛化还需探索
SA Loss仅在最后一层adapter层施加，多层联合约束可能更优
未探索时间维度的slot一致性约束（如相邻帧同一slot应跟踪同一实体）
QVHighlights作为源数据集时OOD提升较小，因数据本身域分布已较广

评分¶

新颖性: ⭐⭐⭐⭐ 将slot attention作为adapter引入MLLM处理VTG的OOD问题，角度新颖
实验充分度: ⭐⭐⭐⭐⭐ 诊断分析、跨域评估、详尽消融、可视化、域距离量化
写作质量: ⭐⭐⭐⭐⭐ 问题诊断→方案设计→验证的逻辑链极其清晰
价值: ⭐⭐⭐⭐ 对VTG的OOD泛化有实际推动，adapter设计可推广到其他视频任务