HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding¶
日期: 2026-03-06
arXiv: 2603.06732
代码: https://github.com/TTingHan-HDU/HERO
领域: 视频理解
关键词: temporal grounding, open-vocabulary, hierarchical embedding, contrastive learning, video-language alignment
一句话总结¶
首次定义 Open-Vocabulary TSGV 任务并构建 Charades-OV/ActivityNet-OV benchmark,提出 HERO 框架通过层次语义嵌入 + 语义引导视觉过滤 + 对比掩码文本精炼三个模块,在开放词汇场景下大幅提升时序句子定位的泛化能力。
研究背景与动机¶
-
领域现状:时序句子定位(TSGV)旨在根据自然语言查询定位视频中对应片段。现有方法(proposal-based 和 proposal-free)在闭合词汇设置下取得了不错结果,但训练和测试使用相同词汇分布。
-
现有痛点:(a) 现有模型严重过拟合训练集的词汇分布——将 query 中的 "person" 替换为语义等价的 "human",定位性能就显著下降;(b) 既有的去偏 benchmark(Charades-CD、ActivityNet-CD)虽然考虑了分布偏移,但 96% 的测试句子仍然只包含训练集中出现过的词汇,本质上还是闭合词汇。
-
核心矛盾:实际应用中用户使用的语言表达多样且不受约束,但 TSGV 模型对词汇变化极为脆弱——根本原因是模型学到的是特定词汇到视觉特征的映射,而非语义级别的跨模态对齐。
-
切入角度:如果模型能在多个语义抽象层次(从词汇到概念)上理解 query,就能更鲁棒地处理同义替换和改述。同时,通过掩码文本的对比学习,可以迫使模型不依赖特定词汇。
-
核心 idea:层次语义编码(低级词汇→高级语义)+ 对比掩码训练实现开放词汇时序定位。
方法详解¶
整体框架¶
输入视频(I3D 特征)+ 文本 query(GloVe 嵌入)→ Hierarchical Embedding Module (HEM) 提取 4 层语义表示 → 4 个并行 CFRE 分支分别做语义引导视觉过滤(SGVF) + 对比掩码文本精炼(CMTR) → 时序定位模块预测每层的时间边界和相关性分数 → 可学习加权聚合得到最终预测 \((s, e)\)。
关键设计¶
-
Hierarchical Embedding Module (HEM):
- 做什么:将 query 编码为 4 层不同语义抽象级别的表示
- 核心思路:6 层 Transformer Encoder,分别取第 0(原始嵌入)、2、4、6 层输出作为 \(Q_0, Q_1, Q_2, Q_3\)。低层保留词汇细节,高层捕获语义概念
- 设计动机:开放词汇的关键挑战是同义词/改述难以在单一表示层级处理——"boy grabs skateboard" 和 "kid picks up object" 在词汇层完全不同,但在高层语义相近。多层次编码允许模型在合适的抽象层找到匹配
-
Semantic-Guided Visual Filter (SGVF):
- 做什么:用文本语义引导过滤无关视觉内容
- 核心思路:cross-attention 以视频 \(V\) 为 query、文本 \(Q_i\) 为 key/value,得到注意力后经 sigmoid 生成软相关系数 \(\hat{V}_i = V \odot \sigma(V_i^{attn})\)
- 设计动机:视频中大量帧与 query 无关(背景噪声),直接融合会稀释有效信号。SGVF 在特征层面抑制无关帧,提升跨模态对齐精度
-
Contrastive Masked Text Refiner (CMTR):
- 做什么:通过随机掩码 query token + 对比学习提升文本鲁棒性
- 核心思路:随机掩码 \(Q_i\) 生成 \(Q_i^m\),分别与视频特征融合后计算相关性分数 \(RS\) 和 \(RS^m\),最小化 KL 散度 \(\mathcal{L}_{CL} = D_{KL}(RS \| RS^m)\)
- 设计动机:掩码训练迫使模型不依赖单个特定词汇进行定位——即使 query 中部分词被遮住,模型仍需给出一致的相关性判断。这直接增强了对词汇变化和缺失的鲁棒性
损失函数¶
总损失:\(\mathcal{L} = \mathcal{L}_{TSGV} + \lambda_1 \mathcal{L}_{RS} + \lambda_2 \mathcal{L}_{CL}\) - \(\mathcal{L}_{TSGV}\):时序定位主损失(继承自 EMB baseline) - \(\mathcal{L}_{RS}\):帧级相关性 BCE loss(对原始和掩码 query 各算一次取平均) - \(\mathcal{L}_{CL}\):对比掩码文本一致性 KL loss - \(\lambda_1 = \lambda_2 = 0.1\)
实验关键数据¶
主实验(Open-Vocabulary TSGV)¶
| 方法 | Charades-OV R1@0.5 | Charades-OV R1@0.7 | ActivityNet-OV R1@0.5 | ActivityNet-OV R1@0.7 |
|---|---|---|---|---|
| EMB | 43.88 | 25.99 | 21.70 | 10.78 |
| TR-DETR | 45.36 | 21.87 | 19.41 | 9.00 |
| HERO | 45.51 | 27.20 | 25.23 | 12.18 |
标准 Benchmark(Charades-STA)¶
| 方法 | R1@0.5 | R1@0.7 |
|---|---|---|
| FlashVTG | 60.11 | 38.01 |
| \(R^2\)-tuning | 59.78 | 37.02 |
| EMB (baseline) | 58.33 | 39.25 |
| HERO | - | >39.25 |
关键发现¶
- 在 Open-Vocabulary 设置下所有现有方法性能大幅下降(对比标准 benchmark),验证了词汇脆弱性问题真实存在
- HERO 在 ActivityNet-OV 上 R1@0.5 比 EMB 提升 +3.53 个点(25.23 vs 21.70),在开放词汇场景提升最为显著
- Charades-CD 96% 测试句子不含新词 → Charades-OV 100% 测试句子含至少一个新词,benchmark 的词汇新颖度质变
- 层次嵌入的贡献:高层语义抽象对词汇替换(如 person→human)的鲁棒性至关重要
亮点与洞察¶
- OV-TSGV 任务定义的价值超过方法本身:首次揭示了 TSGV 领域的词汇脆弱性——现有 benchmark 看似测泛化,实际 96% 测试不含新词。这个问题的暴露比解法更重要
- CMTR 的掩码对比策略可直接迁移:这种"让模型在信息缺失时保持一致输出"的训练策略,可以用在任何需要鲁棒跨模态对齐的场景(如 VQA、图文检索)
- 插件式设计实用性强:HERO 的 HEM+CFRE 作为即插即用模块可接入任何 TSGV backbone,不需要修改原有架构
局限性 / 可改进方向¶
- 使用 I3D + GloVe 作为特征提取器,未探索更强的预训练特征(如 CLIP visual + BERT text),泛化能力可能被特征表示限制
- 只测试了作为 EMB 的插件,没有在更强的 DETR-style backbone 上验证效果
- OV benchmark 的构造依赖 LLM 改写 + 人工验证,改写质量和覆盖度受限于改写策略
- 层次嵌入固定为 4 层,没有消融不同层数的影响
相关工作与启发¶
- vs EMB: HERO 的 baseline,proposal-free 方法。HERO 在其基础上增加 HEM+CFRE,在 OV 设置下特别有效
- vs TR-DETR/QD-DETR: DETR-style 方法在标准 benchmark 上强,但 OV 设置下同样脆弱
- vs 开放词汇目标检测: TSGV 的"类别"不是预定义标签而是自由形式 query 中的词汇,问题定义更复杂
评分¶
- 新颖性: ⭐⭐⭐⭐ 任务定义有价值,benchmark 构建合理,但方法(层次嵌入+对比学习)相对标准
- 实验充分度: ⭐⭐⭐⭐ 覆盖标准和 OV benchmark,对比多种 baseline
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,benchmark 分析有说服力
- 价值: ⭐⭐⭐⭐ 开辟 OV-TSGV 研究方向,benchmark 对社区有持续影响