Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval¶
会议: AAAI 2026
arXiv: 2512.00953v1
代码: https://github.com/KaijingOfficial/DEMR (有)
领域: 视频理解 / 时刻检索 / 不确定性估计
关键词: Moment Retrieval, Evidential Learning, 不确定性估计, 跨模态对齐, 去偏
一句话总结¶
提出 DEMR 框架,将深度证据回归(DER)引入视频时刻检索任务,通过 Reflective Flipped Fusion 模块缓解模态不平衡、通过 Geom-regularizer 修复原始 DER 中不确定性估计的反直觉偏差,在标准和去偏数据集上均取得了显著提升。
背景与动机¶
视频时刻检索(Moment Retrieval, MR)要求根据自然语言查询在未剪裁视频中定位对应时间片段。现有方法主要基于预训练的 Transformer(如 CLIP-ViT),但存在两个核心痛点: 1. 确定性推理的局限:主流方法采用确定性范式,对困难帧(如查询中提到的物体不在画面中)缺乏有效的应对策略,推理时只能靠 NMS 选择最高分 proposal,面对歧义场景容易过度自信。 2. CLIP 特征的模态偏差:CLIP 主要在静态图像-文本对上预训练,偏向捕捉物体级视觉特征,对动态动作和文字语义的细粒度理解不够,导致跨模态融合时过度依赖视觉信息。
作者尝试将深度证据回归(DER)直接引入 MR 作为 baseline,发现两个新问题:(a) 简单拼接多模态特征无法解决模态不平衡;(b) DER 原始正则项的梯度只与误差相关、与证据量无关,导致低误差样本的证据反而被过度抑制,高误差样本的不确定性反而偏低——这是反直觉的。
核心问题¶
如何在多模态时刻检索中实现可靠的不确定性建模?具体包含两个子问题: 1. 如何缓解视觉-文本模态不平衡,使不确定性估计对两个模态都敏感? 2. 如何修复 DER 正则项中"准确预测的证据反被抑制"的结构性缺陷?
方法详解¶
整体框架¶
DEMR 的整体流程:输入未剪裁视频和自然语言查询 → 使用冻结的 CLIP-ViT + SlowFast 提取视频特征,CLIP 提取文本特征 → 通过 RFF 模块进行渐进式跨模态对齐 → MR Head 预测时间边界 + DER Head 估计不确定性 → 训练分两阶段:先用 QR 任务增强文本敏感性,再联合训练 MR 和证据学习。推理时利用不确定性辅助选择 proposal。
关键设计¶
- Reflective Flipped Fusion (RFF) 模块:采用双分支结构,在每一层中交替翻转视频和文本特征的角色(Query ↔ Key/Value),通过共享的交叉注意力 + 各自的自注意力实现渐进式跨模态对齐。这种"反射翻转"设计比简单拼接更充分地建模了双向模态交互,让视觉和文本分支都能获得足够的跨模态信息。
- Query Reconstruction (QR) 辅助任务:在训练早期阶段,随机 mask 查询中的一个名词(名词是 CLIP 特征最擅长捕捉的语义单元),要求模型利用视频上下文和剩余文本 token 重建被 mask 的 token。这迫使模型学会从视频中提取文本相关的语义信息,增强文本分支的敏感性。QR 只在前 30 个 epoch 训练,之后冻结。
- Geom-regularizer:针对原始 DER 正则项 \(\mathcal{L}^R = \Delta \cdot \Phi\)(误差×证据)的梯度 \(-\nabla_\Phi \mathcal{L}^R = -\Delta\) 只依赖误差不依赖证据量的问题,提出基于几何约束的新正则项。核心思想是:将归一化后的误差 \(\bar{\Delta}\) 和证据 \(\bar{\Phi}\) 约束在直线 \(\bar{\Phi} + \bar{\Delta} = 1\) 上,即 \(\mathcal{L}^L = \|\bar{\Phi} + \bar{\Delta} - 1\|_2^2\)。其梯度 \(-\nabla_{\bar{\Phi}} \mathcal{L}^L = -2(\bar{\Delta} + \bar{\Phi} - 1)\) 同时依赖误差和证据,实现了"准确预测应有高证据、不准确预测应有低证据"的自适应调节。
损失函数 / 训练策略¶
- 总损失: \(\mathcal{L} = \mathcal{L}_{mr} + \lambda_{der} \cdot \frac{2}{N} \sum_i \mathcal{L}_i^e + \mathcal{L}_{qr}\)
- 其中 \(\mathcal{L}_{mr}\) 包含 Smooth L1 + GIoU loss(仅对前景 clip)
- \(\mathcal{L}_i^e = \lambda_{NLL} \mathcal{L}_{NLL} + \lambda_{geom} \mathcal{L}^L\)(NIG 负对数似然 + Geom 正则)
- 两阶段训练:Stage 1 训练 QR 模块(30 epoch, lr=1e-5),Stage 2 训练 MR + DER(Geom 正则的梯度对 MR 分支 detach,专注优化不确定性)
- 关键超参: \(\lambda_{geom}=10^{-2}\), \(\lambda_{der}=10^{-3}\)
实验关键数据¶
| 数据集 | 指标 | DEMR | 之前SOTA | 提升 |
|---|---|---|---|---|
| QVHighlights (val) | mAP | 43.0 | 42.9 (CG-DETR) | +0.1 |
| QVHighlights (val) | R1@0.5 | 65.0 | 67.4 (CG-DETR) | -2.4 |
| Charades-STA | R1@0.5 | 60.2 | 58.4 (CG-DETR) | +1.8 |
| Charades-STA | mIoU | 51.6 | 50.1 (CG-DETR/UniVTG) | +1.5 |
| TACoS | R1@0.5 | 37.3 | 39.5 (CG-DETR) | -2.2 |
| QVHighlights (test, MLLM) | mAP@0.75 | 56.82 | 54.40 (LLaVA-MR) | +2.42 |
| Charades-CD | R1@0.3 IID-OOD gap | 3.29% | 12.00% (CM-NAT) | -8.71% |
消融实验要点¶
- RFF 模块:mAP 从 61.1 → 62.4(+1.3),并将视觉-文本不确定性方差差距 ΔVar 从 8.32 降至 7.03
- QR 任务:进一步提升至 63.8(+1.4),ΔVar 从 7.03 降至 0.98,模态平衡效果显著
- Geom-regularizer:完整模型 65.0(+1.2),且实现了"误差越大不确定性越高"的正确校准
- QR 最优设置:mask 1 个名词、训练 30 epoch、lr=1e-4
- \(\lambda_{geom}\) 在 \(10^{-2}\) 处最优,\(\lambda_{der}\) 超过 \(10^{-2}\) 性能明显下降
亮点¶
- 首次将证据回归引入时刻检索,并系统性分析了直接迁移的问题(模态不平衡+反直觉不确定性)
- Geom-regularizer 设计精巧:用一条简单的几何约束线 \(\bar{\Phi}+\bar{\Delta}=1\) 就解决了梯度场的结构缺陷,思路简洁而有效
- 可解释性强:不确定性可以直观地反映模型在 OOD 区域的低信心、在歧义查询上的高 epistemic uncertainty,为 MR 模型提供了可信度信号
- 去偏泛化:在 Charades-CD/ActivityNet-CD 上的 IID-OOD gap 极小(3.29%),远优于确定性方法
局限性 / 可改进方向¶
- 骨干网络受限:使用冻结的 CLIP-ViT/SlowFast,未利用更强的 VLM 骨干(如 InternVideo2、LanguageBind),论文自身也提到与 MLLM 结合是未来方向
- QR 的名词依赖:QR 任务只 mask 名词,对动词/形容词等语义的增强不足,但 MR 中动作语义同样重要
- NMS 仍是必需的:不确定性虽然提供了额外信号,但推理时仍依赖 NMS 做最终筛选,未能完全利用不确定性进行 proposal 选择
- 计算开销:RFF 的多层交叉注意力+DER 的 NIG 分布学习增加了训练/推理成本,论文未报告效率对比
与相关工作的对比¶
- vs UniVTG / QD-DETR / CG-DETR:这些是确定性 MR 方法,DEMR 的核心优势不在绝对性能(某些指标略低于 CG-DETR),而在于提供了不确定性估计能力和更好的去偏泛化
- vs MomentDiff:基于扩散的 MR 方法,DEMR 在所有数据集上优于它,且提供不确定性量化
- vs 原始 DER (Amini 2020):DEMR 的 Geom-regularizer 修复了原始正则项的梯度场缺陷,是对 DER 框架的重要改进,可能对其他回归任务也有参考价值
启发与关联¶
- Geom-regularizer 的通用性:这个正则项的设计思路(把误差和证据约束在一条线上)不局限于 MR,可以迁移到任何使用 DER 的回归任务,如深度估计、姿态估计等
- 与 ideas 的关联:证据性学习与VLM结合的医学图像分割 同样使用证据性学习做不确定性估计,但面向分类(Dirichlet 分布)而非回归(NIG 分布)。DEMR 的 Geom-regularizer 思想(误差-证据几何约束)可能也能迁移到分类场景,用于改善 EDL 的 KL 正则项
- 不确定性引导的主动学习/标注:DEMR 在 OOD 区域产生高 epistemic uncertainty 的特性,天然适合用于主动标注——优先标注模型最不确定的时间段
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次将 DER 引入 MR 并系统性解决迁移问题)
- 技术深度: ⭐⭐⭐⭐ (Geom-regularizer 的梯度分析和几何约束设计有深度)
- 实验充分度: ⭐⭐⭐⭐⭐ (标准+去偏数据集、丰富的消融和可视化)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,可视化丰富)
- 实用价值: ⭐⭐⭐⭐ (代码开源,不确定性估计对下游应用有价值)