Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning¶

会议: CVPR 2026
arXiv: 2603.11439
代码: github.com/MMAI-Konkuk/ROS-DVC
领域: 视频理解 / 密集视频描述
关键词: 密集视频描述, 角色专用查询, 重叠抑制, DETR, 跨任务对比对齐

一句话总结¶

ROS-DVC通过为DETR-based密集视频描述设计角色专用查询初始化（分离定位和描述查询）+跨任务对比对齐损失+重叠抑制损失，在YouCook2上无需预训练即达到CIDEr 39.18的SOTA，超越使用GPT-2的DDVC。

背景与动机¶

密集视频描述(DVC)要求同时定位视频中的事件时间段并为每段生成自然语言描述。DETR-based端到端方法(如PDVC)使用共享的可学习查询同时驱动定位和描述两个子任务，但这种共享设计存在两个问题：(1)多任务干扰——定位需要精确的时间边界信息而描述需要丰富的语义信息，共享查询难以同时满足；(2)预测重叠——多个查询可能预测时间高度重叠的事件段，产生冗余输出。

核心问题¶

如何在DETR-based DVC中解耦定位和描述查询的角色，使其各自专注最擅长的子任务，同时约束预测事件之间的时间重叠以减少冗余？

方法详解¶

整体框架¶

基于PDVC/E2DVC架构：视频特征→Transformer编码器→DETR解码器(用角色专用查询)→并行输出事件时间段+描述文本。

关键设计¶

角色专用查询初始化(Role-Specific Query Initialization): 将标准DETR的单一可学习查询分为两套独立嵌入——定位查询\(\mathbf{q}^{loc}\)专注于时间边界预测，描述查询\(\mathbf{q}^{cap}\)专注于语义内容生成。两套查询在解码器中共享注意力层但保持各自的表示空间，使每个子任务获得"专属信道"。
跨任务对比对齐(Cross-Task Contrastive Alignment, CTCA): 虽然查询分离但对应的定位-描述查询对仍需保持语义一致（同一事件的定位和描述应指向相同内容）。CTCA用对比学习损失拉近匹配的\((\mathbf{q}_i^{loc}, \mathbf{q}_i^{cap})\)对，推远不匹配的对——在解耦的同时保持语义协调。
重叠抑制损失(Overlap Suppression Loss, OSL): 对预测事件段之间的成对时间IoU施加惩罚。不同于简单的NMS后处理，OSL在训练时直接优化——惩罚权重由每个预测与GT的对齐程度调制（与GT高度匹配的预测受较少惩罚，避免抑制真正的连续事件）。这迫使模型学会分散预测、减少冗余。

损失函数 / 训练策略¶

总损失 = 匈牙利匹配的集合预测损失(时间IoU + 分类CE + caption CE) + λ_CTCA · L_CTCA + λ_OSL · L_OSL。无需额外预训练或外部LLM。

实验关键数据¶

数据集	指标	ROS-DVC	E2DVC	MCCL	DDVC(GPT-2)
YouCook2	CIDEr	39.18	34.26	36.09	38.75
YouCook2	SODA_c	7.06	5.78	-	6.74
YouCook2	F1	32.03	28.81	-	-
ActivityNet	CIDEr	35.04	33.27	34.38	-
ActivityNet	SODA_c	6.45	6.01	-	-

无需LLM即超越使用GPT-2的DDVC(CIDEr +0.43)
比基线E2DVC提升CIDEr +4.92(YouCook2)，+1.77(ActivityNet)

消融实验要点¶

仅角色分离(无CTCA/OSL): CIDEr从基线34.26→36.14(+1.88)——查询解耦本身有效
+CTCA: 36.14→37.92(+1.78)——跨任务对齐保持语义一致性
+OSL: 37.92→39.18(+1.26)——重叠抑制进一步减少冗余
三个组件贡献递增，组合效果最优
去掉GT对齐调制的OSL(固定惩罚): CIDEr下降~0.8——需要区分真正连续事件和冗余预测
角色分离vs共享查询+CTCA: 角色分离更关键，说明表示空间的物理分离比软约束更有效

亮点¶

"让查询各做各的"思路朴素但有效——从DETR查询设计层面解决DVC的多任务干扰问题
OSL的GT调制设计精巧——避免了对合理重叠事件的误惩罚
不依赖LLM(GPT-2)即达SOTA——方法轻量高效，可迁移性强
三个损失组件贡献递增，消融清晰

局限性 / 可改进方向¶

仅在YouCook2和ActivityNet上验证，未测试更长/更复杂的视频
角色分离增加了学习的查询参数（2N vs N），在大查询集时可能有额外开销
CTCA用全局对比可能对短/长事件不够敏感——可考虑时间感知的对比
未与最新的LLM-based DVC方法(如用LLaMA的)做充分对比

与相关工作的对比¶

PDVC: 共享查询的端到端DVC先驱。ROS-DVC在其基础上解耦查询+加损失约束
DDVC: 引入GPT-2做描述生成，CIDEr 38.75。ROS-DVC无需LLM即超越(39.18)
E2DVC: 改进的端到端DVC基线。ROS-DVC在其上+4.92 CIDEr
MCCL: 多类别对比学习框架。ROS-DVC的CTCA可视为更focused的对比学习

启发与关联¶

"查询角色分离"的思路可迁移到其他DETR-based多任务架构（如检测+分割的共享查询）
OSL的GT调制惩罚设计可用于任何需要抑制预测重叠但保留合理重叠的场景
不用LLM的轻量DVC方法在资源受限部署场景有实际价值

评分¶

新颖性: ⭐⭐⭐⭐ 查询角色分离+OSL GT调制的组合设计新颖，三个组件互补
实验充分度: ⭐⭐⭐⭐ 两个标准数据集、逐组件消融、多基线对比
写作质量: ⭐⭐⭐⭐ 动机清晰("Stay in your Lane")，方法描述系统
价值: ⭐⭐⭐⭐ 对密集视频描述有直接实用改进