跳转至

ConViS-Bench: Estimating Video Similarity Through Semantic Concepts

会议: NeurIPS 2025
arXiv: 2509.19245
代码: GitHub
领域: video_understanding
关键词: video similarity, benchmark, semantic concepts, Large Multimodal Models, video retrieval

一句话总结

提出基于语义概念的视频相似度估计任务 ConViS 及配套 benchmark ConViS-Bench(610对视频、16领域、5概念),系统评测了10+主流模型在概念条件下的视频比较能力,揭示当前模型在时序结构和空间语境理解上的显著短板。

研究背景与动机

  • 全局相似度粒度不足:传统视频相似度方法仅计算一个全局分数(如嵌入空间余弦相似度),无法解释"哪些方面相似、哪些方面不同",对下游应用(如检索、异常检测)缺乏可解释性。
  • 人类比较视频是多概念的:认知科学研究表明,人类自然地沿语义维度(动作、主体、地点等)选择性地关注和比较事件,视频相似性取决于关注哪个概念,而非一个固定量。
  • 现有视频差异描述局限于窄领域:VidDiffBench 仅关注单一概念(动作差异)且仅覆盖5个领域,StepDiff 局限于烹饪类视频,均为纯文本描述而缺少量化分数。
  • LMM 视频理解能力需要新评测维度:现有 benchmark(Video-MME、MVBench 等)主要通过问答评估,缺少对模型"概念级比较推理"能力的系统测试。
  • 概念条件检索的需求:实际应用中常需按特定概念检索视频(如"相同动作不同主体"),但现有方法不支持这种细粒度条件化。
  • 量化+可解释的空白:video differencing 方法提供文本描述但不量化,全局方法量化但不可解释——ConViS 旨在同时提供结构化量化和可解释性。

方法详解

整体框架:Concept-based Video Similarity (ConViS)

给定视频对 \((V_1, V_2)\) 和预定义概念集 \(\mathcal{C} = \{C_1, \ldots, C_K\}\)(自然语言表述),ConViS 计算每个概念上的相似度分数:

\[s(V_1, V_2 \mid C_i) \in \mathbb{R}\]

各概念分数可通过加权聚合为整体分数:\(s(V_1, V_2) = \sum_{i=1}^{K} \lambda_i \cdot s(V_1, V_2 \mid C_i)\),其中 \(\sum \lambda_i = 1\)。这种设计兼具灵活性(用户可引入任意概念)和可组合性(可按需加权)。

关键设计1:ConViS-Bench 数据集构建

  • 概念选择:基于认知科学(人类沿语义和时间特征组织事件记忆),定义5个通用概念——main action(主要动作)、main subjects(主要主体)、main objects(主要物体)、location(地点)、order of actions(动作顺序)。
  • 视频来源:从 FineVideo 数据集中选取16个视觉多样性强的领域(排除静态说话类),按事件时间戳裁剪为独立片段。
  • 配对策略:使用 DINOv2(视觉嵌入)和 Sentence-BERT(文本嵌入)分别计算余弦相似度,选择仅在单一模态上高相似的配对(确保既有共同点又有差异),最终人工筛选得 610 对。
  • 标注流程:通过 Prolific 招募150名标注者,每对视频按5个概念在 1-5 Likert 量表上打分,同时提供相似/差异的自由文本标签。平均每对6.2次标注,剔除7.75%低质量标注后保留。

关键设计2:LMM 概念条件评测

将两个视频的帧拼接输入 LMM,通过 prompt 要求模型"仅基于 \<concept> 输出1-5的相似度分数"。评测使用 Spearman's \(\rho\) 和 Kendall's \(\tau\) 衡量与人类判断的一致性。覆盖9个开源模型(mPLUG-Owl3、LLaVA系列、Qwen-VL系列、InternVL系列)和 Gemini 2.0-Flash。

关键设计3:全局表征偏好探测

设计三类方法探测全局相似度隐式偏向哪些概念:① Video-to-video(VideoMAE/DINOv2 嵌入余弦相似度);② Text-to-text(先用 LMM 生成描述再用 Sentence-BERT 比较文本);③ Cross-modal(CLIPScore/VQAScore 跨模态对齐分数)。

关键设计4:概念条件检索任务

给定锚视频和目标概念,从4个候选视频中检索最相似的。构建532个概念级偏序排名,用 R@1/P@1/F1@1 评测。

损失函数与训练

本文是一个 benchmark 论文,不涉及模型训练。所有评测均使用现有模型的 zero-shot 推理能力,通过 prompt engineering 在概念条件下获取预测分数。

实验

表1:LMM 概念条件相似度估计(Spearman's ρ × 100)

模型 Main Action Main Subjects Main Objects Location Order of Actions
mPLUG-Owl3-7B 30.64 20.59 28.53 21.00 23.11
LLaVA-OV-0.5B 1.95 -5.05 -4.00 5.66 1.30
LLaVA-OV-7B 51.76 48.43 58.64 58.94 41.02
LLaVA-Video-7B 44.17 39.81 45.85 55.96 41.25
Qwen2.5-VL-7B 37.88 17.53 26.97 23.63 23.85
InternVL2.5-8B 28.70 28.60 25.06 19.64 18.15
InternVL3-8B 40.69 36.54 42.50 45.47 32.74

LLaVA-OV-7B 在所有概念上一致最优,但即便最好的模型在 order of actions 上也仅 41.02,显著低于其他概念。InternVL 系列虽然预训练数据包含 FineVideo,但表现并不突出,暗示预训练数据包含≠真正理解。

表2:全局表征在各概念上的隐式偏好(Spearman's ρ × 100)

模型 方法 Main Action Main Subjects Main Objects Location Order of Actions
VideoMAE Cosine 13.0 23.1 13.2 37.8 15.1
DINOv2 Cosine 33.3 40.9 37.4 57.4 34.6
mPLUG-Owl3 SBERT 52.1 45.5 55.1 28.4 49.9
LLaVA-OV VQAScore 51.1 55.8 58.3 46.5 48.1

关键发现:视觉编码器(DINOv2)偏向 location,文本方法偏向 action/objects,所有方法在 order of actions 上持续低分。VQAScore 整体平衡性最好。

概念条件检索结果亮点

LLaVA-OV-7B 在 main subjects 上 P@1 达 66.4%,在 location 上 P@1 达 68.7%,显著超越随机基线(~35-50%),但 main action 的 P@1 仅 54.8%,说明当前模型在按动作检索时仍较弱。

亮点

  • 任务定义新颖且认知科学扎实:ConViS 恰好填补了全局相似度(量化但不可解释)和视频差异描述(可解释但不量化)之间的空白,概念选择有认知科学理论支撑。
  • 数据集高质量:150名标注者、610对视频、16领域、5概念、每对平均6.2次标注,配有标注质量控制和 IRB 审批。
  • 评测全面深入:覆盖 LMM 概念评分、全局表征偏好探测、概念条件检索三个维度,帧数消融实验揭示了时序依赖性和记忆效应。
  • 发现有洞察力:order of actions 是所有模型的软肋、InternVL 预训练包含测试数据但不帮助概念理解、视觉/文本表征各有概念偏向。

局限性

  • 概念集有限:仅5个通用概念,可能遗漏领域特定的重要维度(如"技能水平"、"拍摄视角"、"光照条件"——标注者自定义概念中频繁出现)。
  • 数据集规模较小:610对视频对于训练概念感知模型来说偏少,主要作为测试集使用。
  • 无训练方法:纯 benchmark 论文,未提出学习概念级相似度的方法,仅评测现有模型的 zero-shot 能力。
  • 标注者一致性一般:Krippendorff's α 最高仅 0.361(location),main subjects 仅 0.244,反映概念级相似度本身带有主观性。
  • Gemini 预训练数据不透明:私有模型的预训练数据可能已含 FineVideo,影响评测公平性。

相关工作

  • 视频全局相似度(DNS、SSVL等):计算单一全局分数但不可解释,ConViS 是对其的结构化升级。
  • 视频差异描述(VidDiffBench [Burgess+ ICLR'25]、StepDiff [Nagarajan+ CVPR'24]):提供文本差异描述但不量化、领域受限(动作/烹饪),ConViS 覆盖16领域且提供量化分数。
  • 图像概念相似度(Achille+ CVPR'24):定义图像间的概念相似度,ConViS 将其扩展到更复杂的视频域。
  • LMM 视频 benchmark(Video-MME、MVBench、TempCompass等):主要测 QA 能力,ConViS 独特地测试概念级比较推理。
  • 组合视频检索(CoVR等):查询=参考视频+文本修改,ConViS 支持多概念维度探索且提供显式量化分数。

评分

  • 新颖性: ⭐⭐⭐⭐ — 概念级视频比较是一个定义清晰且有认知科学根基的新任务
  • 实验充分度: ⭐⭐⭐⭐ — 三维度评测+帧数消融+记忆效应分析,覆盖面广
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,动机论述有说服力
  • 价值: ⭐⭐⭐⭐ — 为视频理解社区提供了重要的评测新维度,发现具有指导意义