Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning¶
会议: CVPR 2026
arXiv: 2603.11439
代码: github.com/MMAI-Konkuk/ROS-DVC
领域: 视频理解 / 密集视频描述
关键词: 密集视频描述, 角色专用查询, 重叠抑制, DETR, 跨任务对比对齐
一句话总结¶
ROS-DVC通过为DETR-based密集视频描述设计角色专用查询初始化(分离定位和描述查询)+跨任务对比对齐损失+重叠抑制损失,在YouCook2上无需预训练即达到CIDEr 39.18的SOTA,超越使用GPT-2的DDVC。
背景与动机¶
密集视频描述(DVC)要求同时定位视频中的事件时间段并为每段生成自然语言描述。DETR-based端到端方法(如PDVC)使用共享的可学习查询同时驱动定位和描述两个子任务,但这种共享设计存在两个问题:(1)多任务干扰——定位需要精确的时间边界信息而描述需要丰富的语义信息,共享查询难以同时满足;(2)预测重叠——多个查询可能预测时间高度重叠的事件段,产生冗余输出。
核心问题¶
如何在DETR-based DVC中解耦定位和描述查询的角色,使其各自专注最擅长的子任务,同时约束预测事件之间的时间重叠以减少冗余?
方法详解¶
整体框架¶
基于PDVC/E2DVC架构:视频特征→Transformer编码器→DETR解码器(用角色专用查询)→并行输出事件时间段+描述文本。
关键设计¶
-
角色专用查询初始化(Role-Specific Query Initialization): 将标准DETR的单一可学习查询分为两套独立嵌入——定位查询\(\mathbf{q}^{loc}\)专注于时间边界预测,描述查询\(\mathbf{q}^{cap}\)专注于语义内容生成。两套查询在解码器中共享注意力层但保持各自的表示空间,使每个子任务获得"专属信道"。
-
跨任务对比对齐(Cross-Task Contrastive Alignment, CTCA): 虽然查询分离但对应的定位-描述查询对仍需保持语义一致(同一事件的定位和描述应指向相同内容)。CTCA用对比学习损失拉近匹配的\((\mathbf{q}_i^{loc}, \mathbf{q}_i^{cap})\)对,推远不匹配的对——在解耦的同时保持语义协调。
-
重叠抑制损失(Overlap Suppression Loss, OSL): 对预测事件段之间的成对时间IoU施加惩罚。不同于简单的NMS后处理,OSL在训练时直接优化——惩罚权重由每个预测与GT的对齐程度调制(与GT高度匹配的预测受较少惩罚,避免抑制真正的连续事件)。这迫使模型学会分散预测、减少冗余。
损失函数 / 训练策略¶
总损失 = 匈牙利匹配的集合预测损失(时间IoU + 分类CE + caption CE) + λ_CTCA · L_CTCA + λ_OSL · L_OSL。无需额外预训练或外部LLM。
实验关键数据¶
| 数据集 | 指标 | ROS-DVC | E2DVC | MCCL | DDVC(GPT-2) |
|---|---|---|---|---|---|
| YouCook2 | CIDEr | 39.18 | 34.26 | 36.09 | 38.75 |
| YouCook2 | SODA_c | 7.06 | 5.78 | - | 6.74 |
| YouCook2 | F1 | 32.03 | 28.81 | - | - |
| ActivityNet | CIDEr | 35.04 | 33.27 | 34.38 | - |
| ActivityNet | SODA_c | 6.45 | 6.01 | - | - |
- 无需LLM即超越使用GPT-2的DDVC(CIDEr +0.43)
- 比基线E2DVC提升CIDEr +4.92(YouCook2),+1.77(ActivityNet)
消融实验要点¶
- 仅角色分离(无CTCA/OSL): CIDEr从基线34.26→36.14(+1.88)——查询解耦本身有效
- +CTCA: 36.14→37.92(+1.78)——跨任务对齐保持语义一致性
- +OSL: 37.92→39.18(+1.26)——重叠抑制进一步减少冗余
- 三个组件贡献递增,组合效果最优
- 去掉GT对齐调制的OSL(固定惩罚): CIDEr下降~0.8——需要区分真正连续事件和冗余预测
- 角色分离vs共享查询+CTCA: 角色分离更关键,说明表示空间的物理分离比软约束更有效
亮点¶
- "让查询各做各的"思路朴素但有效——从DETR查询设计层面解决DVC的多任务干扰问题
- OSL的GT调制设计精巧——避免了对合理重叠事件的误惩罚
- 不依赖LLM(GPT-2)即达SOTA——方法轻量高效,可迁移性强
- 三个损失组件贡献递增,消融清晰
局限性 / 可改进方向¶
- 仅在YouCook2和ActivityNet上验证,未测试更长/更复杂的视频
- 角色分离增加了学习的查询参数(2N vs N),在大查询集时可能有额外开销
- CTCA用全局对比可能对短/长事件不够敏感——可考虑时间感知的对比
- 未与最新的LLM-based DVC方法(如用LLaMA的)做充分对比
与相关工作的对比¶
- PDVC: 共享查询的端到端DVC先驱。ROS-DVC在其基础上解耦查询+加损失约束
- DDVC: 引入GPT-2做描述生成,CIDEr 38.75。ROS-DVC无需LLM即超越(39.18)
- E2DVC: 改进的端到端DVC基线。ROS-DVC在其上+4.92 CIDEr
- MCCL: 多类别对比学习框架。ROS-DVC的CTCA可视为更focused的对比学习
启发与关联¶
- "查询角色分离"的思路可迁移到其他DETR-based多任务架构(如检测+分割的共享查询)
- OSL的GT调制惩罚设计可用于任何需要抑制预测重叠但保留合理重叠的场景
- 不用LLM的轻量DVC方法在资源受限部署场景有实际价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 查询角色分离+OSL GT调制的组合设计新颖,三个组件互补
- 实验充分度: ⭐⭐⭐⭐ 两个标准数据集、逐组件消融、多基线对比
- 写作质量: ⭐⭐⭐⭐ 动机清晰("Stay in your Lane"),方法描述系统
- 价值: ⭐⭐⭐⭐ 对密集视频描述有直接实用改进