Sparse-Dense Side-Tuner for Efficient Video Temporal Grounding¶

会议: ICCV 2025
arXiv: 2507.07744
代码: GitHub
领域: 目标检测
关键词: 视频时序定位, Side-Tuning, 参数高效微调, 可变形注意力, InternVideo2

一句话总结¶

提出 SDST（Sparse-Dense Side-Tuner），首个无锚框（anchor-free）的 Side-Tuning 架构，通过稀疏-稠密双流设计同时处理时刻检索（MR）和高光检测（HD），并提出 Reference-based Deformable Self-Attention（RDSA）解决可变形注意力的上下文缺失问题，在 QVHighlights、TACoS、Charades-STA 上取得 SOTA 或高度竞争性结果，同时将可训练参数量减少至现有 SOTA 的 27%。

研究背景与动机¶

视频时序定位（VTG）任务需要根据文本查询在视频中定位特定时刻（MR）并检测高光片段（HD）。现有方法面临以下关键问题：

冻结特征的局限性：大多数方法仅使用冻结预训练骨干网络（如 CLIP）的最后一层特征，当预训练分布与下游任务之间存在较大偏移时，性能显著下降。这在 VTG 中尤为突出——用图像域骨干处理视频域任务。

全量微调不可行：完整微调大型视觉-语言模型计算代价过高。虽然参数高效微调（PEFT）方法（如 Prompt、Adapter）能减少可训练参数，但仍需通过整个骨干进行反向传播，内存消耗大。

现有 Side-Tuning 方法的缺陷：R2-Tuning 是首个用于 VTG 的 Side-Tuning 方法，但它采用基于锚框的设计，从帧级精细化的角度处理问题，忽略了 MR 任务的内在稀疏性。实验表明，这种基于锚框的方法在 MR 任务上表现不佳。

可变形注意力的上下文限制：现有无锚框方法（如 DETR 系列）的核心——可变形注意力模块——在交叉注意力场景中存在隐含的上下文缺失问题。由于查询和键来自不同空间，CNN 偏移预测器无法为查询提供键/值空间的上下文信息，导致偏移量坍缩到初始值附近。

方法详解¶

整体框架¶

SDST 是一个双流 Side-Tuning 架构，附着在冻结的 InternVideo2-1B 骨干网络的最后 \(K\) 个中间层上。输入视频和文本首先通过 InternVideo2 提取 \(K\) 个中间视觉-文本表示，然后通过权重共享的 SDST 层递归精细化两个流：

稠密流（Dense Stream \(\mathcal{D}\)）：精细化帧级嵌入，适用于 HD 任务
稀疏流（Sparse Stream \(\mathcal{S}\)）：精细化循环解码器查询（recurrent decoder queries），适用于 MR 任务

整个递归过程可表示为：

\[\mathbf{D}^{\ell+1}, \mathbf{R}^{\ell+1}, \mathbf{H}^{\ell+1} = SDST(\mathbf{D}^{\ell}, \mathbf{R}^{\ell}, \mathbf{H}^{\ell}, \tilde{\mathbf{V}}^{\ell}, \tilde{\mathbf{T}}^{\ell})\]

关键设计¶

稠密学习流（Dense Learning Stream）:
- 功能：逐层精细化帧级稠密嵌入 \(\mathbf{D}^{\ell}\)，融合多模态信息并建模时序关系
- 核心思路：首先将视觉和文本的中间特征投影到共享 \(F\) 维空间，通过加权求和将视觉信息融入稠密嵌入：\(\mathbf{D}^{\ell} := \beta^{\ell}\mathbf{D}^{\ell} + (1-\beta^{\ell})\mathbf{V}^{\ell}\)，其中 \(\beta^{\ell}\) 是零初始化的层级参数。然后依次使用交叉注意力注入文本信息、自注意力建模时序关系：\(\mathbf{D}^{\ell+1} = PFFN(SA(CA(\mathbf{D}^{\ell}, \mathbf{T}^{\ell}, \mathbf{T}^{\ell})))\)
- 设计动机：帧级嵌入天然适合为每帧预测显著性分数（HD 任务），同时作为稀疏流的基础信号
稀疏学习流（Sparse Learning Stream）:
- 功能：精细化循环解码器查询——包括中心-宽度参考 \(\mathbf{R}^{\ell} \in \mathbb{R}^{M \times 2}\) 和对应的隐嵌入 \(\mathbf{H}^{\ell} \in \mathbb{R}^{M \times F}\)
- 核心思路：首先通过 CA 和 SA 注入文本信息并促进不同时刻提议之间的信息流动，然后通过 RDSA 将视频模态信息注入查询：\(\mathbf{H}^{\ell} = PFFN(RDSA(\mathbf{R}^{\ell}, \mathbf{H}^{\ell}, \mathbf{D}^{\ell+1}))\)
- 设计动机：MR 是高度稀疏的任务（视频中可能只有极少量 GT 动作），基于 DETR 的无锚框架构在稀疏检测任务中已被证明优于基于锚框的方法
Reference-based Deformable Self-Attention（RDSA）:
- 功能：替代标准可变形交叉注意力，解决查询缺乏键/值空间上下文信息的问题
- 核心思路：不使用可学习查询 \(\mathbf{H}^{\ell}\) 来预测偏移和注意力分数，而是从稠密嵌入中提取三个关键动作嵌入——左端(l)、中心(c)、右端(r)——作为新查询：\(\hat{\mathbf{Q}} = \hat{\mathbf{X}}_{\mathcal{Q}} \mathbf{W}_{\mathcal{Q}}^{def}\)，其中 \(\hat{\mathbf{X}}_{\mathcal{Q}} = CNN(\mathbf{D}^{\ell})[l, c, r] \in \mathbb{R}^{M \times 3F}\)。这样查询和键都来自相同的潜在空间（稠密嵌入），自然地解决了交叉注意力中的上下文缺失问题
- 设计动机：标准可变形 CA 中 \(\mathbf{X}_{\mathcal{Q}} \neq \mathbf{X}_{\mathcal{K}}\)，CNN 偏移预测器无法获取键空间的上下文信息，导致偏移量坍缩在初始值附近，且无法选取当前估计边界之外的键——这对于将短动作精细化为长动作至关重要
InternVideo2 中间表示提取:
- 功能：解决从 InternVideo2 骨干中提取中间视觉表示的池化挑战
- 核心思路：复用 InternVideo2 最后一层的冻结 AdaptivePool 模块来池化所有中间层的时空 token：\(\tilde{\mathbf{V}}^{\ell} = AdaptivePool(\hat{\mathbf{V}}^{\ell})\)
- 设计动机：CLS 池化不适用于 InternVideo2 的中间层（限制空间聚合能力），而为每层训练独立的 AdaptivePool 需要全量反向传播，计算不可行。复用冻结模块既利用了其增强的多模态对齐能力，又无需额外的反向传播和内存开销

损失函数 / 训练策略¶

总损失由三部分组成：\(\mathcal{L} = \lambda_5 \mathcal{L}_{HD} + \lambda_6 \mathcal{L}_{MR} + \lambda_7 \mathcal{L}_{align}\)

HD 损失：InfoNCE 损失，基于稠密嵌入与池化文本表示的余弦相似度
MR 损失：使用匈牙利匹配后，包含 FocalLoss（分类）、L1 + IoU（边界回归）、L1（actionness 分数），关键是跨所有精细化层级优化以促进收敛
对齐损失：基于 SampledNCE 的视觉-文本对齐，沿 batch 和中间层两个维度应用

实验关键数据¶

主实验¶

数据集	指标	SDST (本文)	SG-DETR	R2-Tuning	参数量
QVHighlights val	R1@0.5	73.68	-	68.71	4.1M vs 15M vs 2.7M
QVHighlights val	R1@0.7	60.90	-	52.06	-
QVHighlights val	mAP Avg	55.60	55.64	47.59	-
QVHighlights val	HD mAP	44.00	43.91	40.59	-
QVHighlights val	HD HIT@1	72.00	71.47	64.32	-
Charades-STA	R@0.7	52.6	49.5	37.0	-
Charades-STA	mIoU	61.2	59.1	50.9	-
TACoS	R@0.7	32.3	29.9	25.1	-
TACoS	mIoU	42.2	40.9	35.9	-

SDST 仅使用 SG-DETR 27% 的参数量即达到竞争甚至超越的性能。

消融实验¶

配置	MR mAP	HD HIT@1	说明
CLS 池化	50.53	64.26	最差，限制空间聚合
平均池化	53.44	69.68	部分缓解但仍不足
AdaptivePool（本文）	55.60	72.00	复用冻结池化模块最优
标准 CA	42.72	69.87	严重性能下降
Def. CA	54.27	70.58	基线可变形 CA
Def. CA + PureInit	52.92	70.32	初始化反而有害
RDSA（本文）	55.60	72.00	比 Def. CA 提升 1.33 mAP

关键发现¶

RDSA 学会了查看当前动作边界之外的帧（偏移量 < -1 或 > +1），这对精细化长动作至关重要
中间特征的有用性并非如此前文献所示那样简单；仅使用最后层特征做多步精细化在 K=2,3 时甚至优于中间特征
从更浅层采样特征存在"深度-池化权衡"——浅层特征提供互补信息，但分布偏移使冻结 AdaptivePool 效果下降

亮点与洞察¶

首次将 Side-Tuning 与无锚框 DETR 架构结合，为稀疏-稠密多任务学习提供了优雅解决方案
RDSA 深入分析了可变形注意力在 CA 和 SA 场景下的本质区别——SA 中 CNN 偏移预测器天然获得局部上下文，而 CA 中则完全"盲目"
首次成功将 InternVideo2 集成到 Side-Tuning 框架中，解决了关键的 token 池化难题
对"中间特征 vs 多步精细化"的深入实验分析提供了新的理解视角

局限与展望¶

依赖预提取的 InternVideo2 特征，未实现端到端训练
AdaptivePool 复用的depth-pooling trade-off 限制了利用更浅层特征
仅在 VTG 相关数据集上验证，未拓展到更广泛的视频理解任务
Side-Tuning 范式对骨干网络的选择敏感，从 CLIP 切换到 InternVideo2 需要非平凡的工程挑战

评分¶

新颖性: ⭐⭐⭐⭐ 双流 ST 架构和 RDSA 是有意义的贡献，但整体框架建立在已有组件上
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集全面评估，丰富的消融实验，深入的可变形注意力分析
写作质量: ⭐⭐⭐⭐ 结构清晰，动机论述充分，但公式密度较高
价值: ⭐⭐⭐⭐ 为参数高效的视频时序定位提供了实用的解决方案，减少 73% 参数量达到 SOTA