跳转至

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning

会议: CVPR 2026
arXiv: 2603.11439
代码: github.com/MMAI-Konkuk/ROS-DVC
领域: 视频理解 / 密集视频描述
关键词: 密集视频描述, 角色专用查询, 重叠抑制, DETR, 跨任务对比对齐

一句话总结

ROS-DVC通过为DETR-based密集视频描述设计角色专用查询初始化(分离定位和描述查询)+跨任务对比对齐损失+重叠抑制损失,在YouCook2上无需预训练即达到CIDEr 39.18的SOTA,超越使用GPT-2的DDVC。

背景与动机

密集视频描述(DVC)要求同时定位视频中的事件时间段并为每段生成自然语言描述。DETR-based端到端方法(如PDVC)使用共享的可学习查询同时驱动定位和描述两个子任务,但这种共享设计存在两个问题:(1)多任务干扰——定位需要精确的时间边界信息而描述需要丰富的语义信息,共享查询难以同时满足;(2)预测重叠——多个查询可能预测时间高度重叠的事件段,产生冗余输出。

核心问题

如何在DETR-based DVC中解耦定位和描述查询的角色,使其各自专注最擅长的子任务,同时约束预测事件之间的时间重叠以减少冗余?

方法详解

整体框架

基于PDVC/E2DVC架构:视频特征→Transformer编码器→DETR解码器(用角色专用查询)→并行输出事件时间段+描述文本。

关键设计

  1. 角色专用查询初始化(Role-Specific Query Initialization): 将标准DETR的单一可学习查询分为两套独立嵌入——定位查询\(\mathbf{q}^{loc}\)专注于时间边界预测,描述查询\(\mathbf{q}^{cap}\)专注于语义内容生成。两套查询在解码器中共享注意力层但保持各自的表示空间,使每个子任务获得"专属信道"。

  2. 跨任务对比对齐(Cross-Task Contrastive Alignment, CTCA): 虽然查询分离但对应的定位-描述查询对仍需保持语义一致(同一事件的定位和描述应指向相同内容)。CTCA用对比学习损失拉近匹配的\((\mathbf{q}_i^{loc}, \mathbf{q}_i^{cap})\)对,推远不匹配的对——在解耦的同时保持语义协调。

  3. 重叠抑制损失(Overlap Suppression Loss, OSL): 对预测事件段之间的成对时间IoU施加惩罚。不同于简单的NMS后处理,OSL在训练时直接优化——惩罚权重由每个预测与GT的对齐程度调制(与GT高度匹配的预测受较少惩罚,避免抑制真正的连续事件)。这迫使模型学会分散预测、减少冗余。

损失函数 / 训练策略

总损失 = 匈牙利匹配的集合预测损失(时间IoU + 分类CE + caption CE) + λ_CTCA · L_CTCA + λ_OSL · L_OSL。无需额外预训练或外部LLM。

实验关键数据

数据集 指标 ROS-DVC E2DVC MCCL DDVC(GPT-2)
YouCook2 CIDEr 39.18 34.26 36.09 38.75
YouCook2 SODA_c 7.06 5.78 - 6.74
YouCook2 F1 32.03 28.81 - -
ActivityNet CIDEr 35.04 33.27 34.38 -
ActivityNet SODA_c 6.45 6.01 - -
  • 无需LLM即超越使用GPT-2的DDVC(CIDEr +0.43)
  • 比基线E2DVC提升CIDEr +4.92(YouCook2),+1.77(ActivityNet)

消融实验要点

  • 仅角色分离(无CTCA/OSL): CIDEr从基线34.26→36.14(+1.88)——查询解耦本身有效
  • +CTCA: 36.14→37.92(+1.78)——跨任务对齐保持语义一致性
  • +OSL: 37.92→39.18(+1.26)——重叠抑制进一步减少冗余
  • 三个组件贡献递增,组合效果最优
  • 去掉GT对齐调制的OSL(固定惩罚): CIDEr下降~0.8——需要区分真正连续事件和冗余预测
  • 角色分离vs共享查询+CTCA: 角色分离更关键,说明表示空间的物理分离比软约束更有效

亮点

  • "让查询各做各的"思路朴素但有效——从DETR查询设计层面解决DVC的多任务干扰问题
  • OSL的GT调制设计精巧——避免了对合理重叠事件的误惩罚
  • 不依赖LLM(GPT-2)即达SOTA——方法轻量高效,可迁移性强
  • 三个损失组件贡献递增,消融清晰

局限性 / 可改进方向

  • 仅在YouCook2和ActivityNet上验证,未测试更长/更复杂的视频
  • 角色分离增加了学习的查询参数(2N vs N),在大查询集时可能有额外开销
  • CTCA用全局对比可能对短/长事件不够敏感——可考虑时间感知的对比
  • 未与最新的LLM-based DVC方法(如用LLaMA的)做充分对比

与相关工作的对比

  • PDVC: 共享查询的端到端DVC先驱。ROS-DVC在其基础上解耦查询+加损失约束
  • DDVC: 引入GPT-2做描述生成,CIDEr 38.75。ROS-DVC无需LLM即超越(39.18)
  • E2DVC: 改进的端到端DVC基线。ROS-DVC在其上+4.92 CIDEr
  • MCCL: 多类别对比学习框架。ROS-DVC的CTCA可视为更focused的对比学习

启发与关联

  • "查询角色分离"的思路可迁移到其他DETR-based多任务架构(如检测+分割的共享查询)
  • OSL的GT调制惩罚设计可用于任何需要抑制预测重叠但保留合理重叠的场景
  • 不用LLM的轻量DVC方法在资源受限部署场景有实际价值

评分

  • 新颖性: ⭐⭐⭐⭐ 查询角色分离+OSL GT调制的组合设计新颖,三个组件互补
  • 实验充分度: ⭐⭐⭐⭐ 两个标准数据集、逐组件消融、多基线对比
  • 写作质量: ⭐⭐⭐⭐ 动机清晰("Stay in your Lane"),方法描述系统
  • 价值: ⭐⭐⭐⭐ 对密集视频描述有直接实用改进