跳转至

SAMA: A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding

日期: 2026-03-16
arXiv: 2603.14733
领域: 视频理解 / LLM Agent
关键词: 多视频理解, 技能增强, 冲突感知验证, 跨视频推理, 视觉工具, MVX-Bench

一句话总结

提出 MVX-Bench(将 11 个经典 CV 任务重构为多视频 QA,1,442 问题/4,255 视频)和 SAMA agent 框架(视觉工具执行底层分析 + 任务特定技能提供专业推理能力 + 冲突感知验证迭代修正矛盾信息),在跨视频推理上系统性超越 GPT 系列和开源基线,消融验证各组件有效性。

研究背景与动机

  1. 领域现状: MLLM 在单视频理解上已经取得了强劲表现(如 VideoLLaMA、Video-ChatGPT 等),但当需要同时理解和推理多个视频时,能力急剧下降。现有处理多视频的标准做法是将多个视频帧简单拼接为一个长序列,然后做一次性推理。

  2. 现有痛点: (a) 训练-推理不匹配——多数 MLLM 是在单视频上训练的,推理时突然输入多视频拼接序列会导致分布 drift;(b) 帧压缩信息丢失——为了控制序列长度,需要对每个视频大幅压缩帧数,fine-grained 视觉信息被丢弃;(c) 缺乏显式跨视频协调——模型内部没有机制显式比较不同视频中的内容,跨视频的关联推理完全依赖隐式的注意力机制。

  3. 核心矛盾: 多视频推理的本质困难:不同视频可能提供互补信息(需要融合),也可能提供矛盾信息(需要仲裁),还可能需要多步推理(先从视频 A 提取信息 → 用于理解视频 B 的内容)。简单拼接后一次推理的范式无法处理这三种情况。

  4. 本文要解决什么: (a) 缺少全面评测多视频推理能力的基准(现有基准主要关注事件级比较,忽略身份匹配、细粒度区分、多步推理);(b) 需要一种能显式协调多视频信息、处理矛盾、支持迭代推理的方法。

  5. 切入角度: 从 Agentic AI 的视角重新思考多视频理解——将其从"一次性推理问题"重构为"迭代决策问题"。Agent 可以按需调用视觉工具分析各视频、运用任务特定技能执行专业操作、在发现矛盾时主动验证和修正。

  6. 核心 idea: 用 agentic 框架替代"拼接后一次推理"——整合视觉工具(底层感知)、任务特定技能(领域知识)和冲突感知验证(矛盾处理),形成可迭代、可解释的多视频推理系统。

方法详解

整体框架

SAMA 是一个三层架构的 agent 系统: - 感知层(Visual Tools): 调用专用视觉模型对各视频分别执行底层分析(目标检测、动作识别、特征提取等),产生结构化中间结果 - 推理层(Task-Specific Skills): 根据问题类型激活对应的技能模块,利用感知层结果执行跨视频比较、匹配或推理 - 验证层(Conflict-Aware Verification): 检查推理过程中是否存在矛盾(如视频 A 的分析结果与视频 B 冲突),触发迭代修正

输入:多个视频 + 自然语言问题 → 输出:结构化答案

关键设计

  1. 视觉工具集成(Visual Tools):

    • 做什么:为 agent 提供"眼睛"——调用专用视觉模型执行底层分析,避免 MLLM 直接从原始帧做一切
    • 核心思路:维护一个视觉工具库(如目标检测器、动作识别器、OCR 工具、人脸匹配器等),agent 根据问题需求选择性调用。每个工具对单个视频执行分析,返回结构化结果(如检测框列表、动作标签、文字内容)
    • 设计动机:让 MLLM 直接从压缩帧序列读取 fine-grained 信息几乎不可能——检测一个小物体需要高分辨率输入,而多视频拼接后的帧数和分辨率都极度受限。专用工具在各自任务上远优于通用 MLLM
    • 与现有方法区别:VideoAgent 等工作也使用工具,但主要面向单视频。SAMA 的工具化设计针对多视频场景——同一工具可以分别作用于不同视频,结果被结构化地组织以供跨视频比较
  2. 任务特定技能(Task-Specific Skills):

    • 做什么:为不同类型的跨视频推理提供专用的推理策略
    • 核心思路:11 种 CV 任务(如 ReID 身份匹配、动作比较、场景变化检测等)各对应一个"技能"——技能定义了推理逻辑模板(如身份匹配技能:提取视频 A 的外观特征 → 提取视频 B 的候选对象 → 计算相似度 → 排序),agent 根据问题自动路由到合适的技能
    • 设计动机:不同类型的多视频推理有完全不同的逻辑——身份匹配需要跨视频的特征对齐,事件排序需要时间线构建,细粒度区分需要差异放大。通用的"让 LLM 想想"策略在所有类型上都不够专业
    • 类比:类似人类专家系统——面对医学影像比较vs视频监控比对vs动作分析,使用完全不同的分析流程
  3. 冲突感知验证(Conflict-Aware Verification):

    • 做什么:在跨视频推理过程中检测矛盾信息,触发迭代修正而非盲目输出
    • 核心思路:在推理每一步,模块检查当前结论与已有证据是否一致。当发现冲突(如视觉工具对视频 A 中某人识别为 X,但技能推理发现这与视频 B 的上下文矛盾),系统回溯到冲突点,调用更多工具获取额外证据,或切换推理策略重新分析
    • 设计动机:多视频场景中矛盾信息高频出现——不同视角可能看到不同结果、不同时间点信息可能冲突、检测工具可能在不同视频上给出不一致的判断。直接取多数投票或平均化都不够——需要理解矛盾的来源并选择更可靠的证据
    • 与简单 self-consistency 的区别:不是多次生成后投票,而是在推理过程中主动检测冲突并针对性地解决

MVX-Bench 基准

MVX-Bench (Multi-Video Cross-Dimension Benchmark) 的设计: - 任务来源: 11 个经典 CV 任务重构为多视频 QA 格式 - 身份匹配类:Person ReID、Vehicle ReID、Face Verification - 比较分析类:Action Comparison、Attribute Comparison - 跨视频推理类:Temporal Ordering、Spatial Reasoning - 细粒度区分类:Fine-grained Classification、Change Detection - 综合推理类:Multi-step Reasoning、Counterfactual - 规模: 1,442 个问题,覆盖 4,255 个真实世界视频 - 评测维度: 身份级匹配、细粒度区分、结构化多步推理三大能力

实验关键数据

主实验

方法 MVX-Bench 总准确率 身份匹配 细粒度区分 多步推理
GPT-4o 基线 较弱 中等 中等
Qwen2-VL-72B 基线+ 中等 中等 中等
开源最佳直接推理 基线++ 中等 中等 较弱
SAMA (ours) 最优 最优 最优 最优

SAMA 在所有 11 个子任务上都达到或超越最强基线。

消融实验

配置 MVX-Bench 准确率 说明
SAMA (Full) 最优 完整 agent 框架
w/o Skills 下降明显 去掉任务特定技能,用通用推理
w/o Conflict Verification 下降 去掉冲突感知,直接输出首次推理结果
w/o Visual Tools 下降最多 去掉专用工具,只用 MLLM 直接看帧
Direct Concatenation 最差 拼接后一次推理(标准基线)

关键发现

  • 视觉工具贡献最大:去掉专用工具(w/o Visual Tools)性能下降最显著,验证了"让 MLLM 直接看压缩帧"在多视频场景下的根本局限
  • 冲突感知验证在矛盾频繁的任务上增益最大:在身份匹配和细粒度区分任务上(多视频间更容易产生矛盾判断),去掉验证模块的性能损失明显高于其他任务类型
  • 技能设计具有任务适配性:不同技能在对应任务上的贡献不均——身份匹配技能对 ReID 类任务贡献突出,时序推理技能对排序任务关键

亮点与洞察

  • 从"一次推理"到"迭代 agent"的范式转换:多视频理解不应被看作"更长的单视频理解"——本质上是多源信息的融合-仲裁-推理过程,agentic 框架是更合适的范式。这个洞察有广泛意义,可迁移到多文档理解、多图理解等场景
  • 冲突感知验证的通用性:多视频间的信息矛盾处理机制完全可以迁移到多源知识融合(如多篇论文观点冲突、多个数据库答案不一致)场景中
  • MVX-Bench 的设计思路:把经典 CV 任务重构为多视频 QA 是巧妙的——复用已有数据和评测标准,同时将问题统一到自然语言 QA 框架下,大幅降低评测成本

相关工作与启发

  • vs VideoAgent (ECCV 2024): VideoAgent 也用 agentic 框架处理视频,但面向单视频长视频理解。SAMA 扩展到多视频场景,增加了跨视频协调和冲突处理
  • vs Video-CoE (本日同期): Video-CoE 用 Chain of Events 做视频事件预测,是单视频的时序推理强化。SAMA 面向跨视频推理,两者互补——CoE 的时序建模思路可以增强 SAMA 在时序排序类任务上的能力
  • vs 多文档 QA Agent: 类似 self-RAG、CRAG 等多文档检索增强方法,但 SAMA 处理的是视觉模态而非文本

局限性 / 可改进方向

  • 推理延迟:Agentic 框架的多轮工具调用 + 验证循环比直接拼接推理慢很多(可能慢 5-10x),实时应用受限
  • 工具库的完备性:11 种 CV 任务各需对应工具,扩展到新任务需要整合新工具,系统维护成本较高
  • 技能路由的鲁棒性:当问题不清楚属于哪个类型时,技能路由可能出错。更鲁棒的方案可能需要多技能融合或动态技能组合
  • 规模可扩展性:4,255 视频的规模对基准来说适中,但更大规模(万级视频)下的 agent 效率还需验证
  • 与 VLM 训练的结合:当前 SAMA 是 inference-time 方案,如果将 agentic 推理过程蒸馏到模型训练中(类似 Video-CoE 的 GRPO 思路),可能进一步提升性能

评分

  • 新颖性: ⭐⭐⭐⭐ 多视频 + agentic 的结合是新方向,MVX-Bench 填补了评测空白
  • 实验充分度: ⭐⭐⭐⭐ 11 任务 × 多基线 × 完整消融
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,benchmark 设计有说服力
  • 价值: ⭐⭐⭐⭐ 推动多视频理解从简单拼接到结构化 agent 推理的范式转换