SAMA: A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding¶

日期: 2026-03-16
arXiv: 2603.14733
领域: 视频理解 / LLM Agent
关键词: 多视频理解, 技能增强, 冲突感知验证, 跨视频推理, 视觉工具, MVX-Bench

一句话总结¶

提出 MVX-Bench（将 11 个经典 CV 任务重构为多视频 QA，1,442 问题/4,255 视频）和 SAMA agent 框架（视觉工具执行底层分析 + 任务特定技能提供专业推理能力 + 冲突感知验证迭代修正矛盾信息），在跨视频推理上系统性超越 GPT 系列和开源基线，消融验证各组件有效性。

研究背景与动机¶

领域现状: MLLM 在单视频理解上已经取得了强劲表现（如 VideoLLaMA、Video-ChatGPT 等），但当需要同时理解和推理多个视频时，能力急剧下降。现有处理多视频的标准做法是将多个视频帧简单拼接为一个长序列，然后做一次性推理。
现有痛点: (a) 训练-推理不匹配——多数 MLLM 是在单视频上训练的，推理时突然输入多视频拼接序列会导致分布 drift；(b) 帧压缩信息丢失——为了控制序列长度，需要对每个视频大幅压缩帧数，fine-grained 视觉信息被丢弃；(c) 缺乏显式跨视频协调——模型内部没有机制显式比较不同视频中的内容，跨视频的关联推理完全依赖隐式的注意力机制。
核心矛盾: 多视频推理的本质困难：不同视频可能提供互补信息（需要融合），也可能提供矛盾信息（需要仲裁），还可能需要多步推理（先从视频 A 提取信息 → 用于理解视频 B 的内容）。简单拼接后一次推理的范式无法处理这三种情况。
本文要解决什么: (a) 缺少全面评测多视频推理能力的基准（现有基准主要关注事件级比较，忽略身份匹配、细粒度区分、多步推理）；(b) 需要一种能显式协调多视频信息、处理矛盾、支持迭代推理的方法。
切入角度: 从 Agentic AI 的视角重新思考多视频理解——将其从"一次性推理问题"重构为"迭代决策问题"。Agent 可以按需调用视觉工具分析各视频、运用任务特定技能执行专业操作、在发现矛盾时主动验证和修正。
核心 idea: 用 agentic 框架替代"拼接后一次推理"——整合视觉工具（底层感知）、任务特定技能（领域知识）和冲突感知验证（矛盾处理），形成可迭代、可解释的多视频推理系统。

方法详解¶

整体框架¶

SAMA 是一个三层架构的 agent 系统： - 感知层（Visual Tools）: 调用专用视觉模型对各视频分别执行底层分析（目标检测、动作识别、特征提取等），产生结构化中间结果 - 推理层（Task-Specific Skills）: 根据问题类型激活对应的技能模块，利用感知层结果执行跨视频比较、匹配或推理 - 验证层（Conflict-Aware Verification）: 检查推理过程中是否存在矛盾（如视频 A 的分析结果与视频 B 冲突），触发迭代修正

输入：多个视频 + 自然语言问题 → 输出：结构化答案

关键设计¶

视觉工具集成（Visual Tools）:
- 做什么：为 agent 提供"眼睛"——调用专用视觉模型执行底层分析，避免 MLLM 直接从原始帧做一切
- 核心思路：维护一个视觉工具库（如目标检测器、动作识别器、OCR 工具、人脸匹配器等），agent 根据问题需求选择性调用。每个工具对单个视频执行分析，返回结构化结果（如检测框列表、动作标签、文字内容）
- 设计动机：让 MLLM 直接从压缩帧序列读取 fine-grained 信息几乎不可能——检测一个小物体需要高分辨率输入，而多视频拼接后的帧数和分辨率都极度受限。专用工具在各自任务上远优于通用 MLLM
- 与现有方法区别：VideoAgent 等工作也使用工具，但主要面向单视频。SAMA 的工具化设计针对多视频场景——同一工具可以分别作用于不同视频，结果被结构化地组织以供跨视频比较
任务特定技能（Task-Specific Skills）:
- 做什么：为不同类型的跨视频推理提供专用的推理策略
- 核心思路：11 种 CV 任务（如 ReID 身份匹配、动作比较、场景变化检测等）各对应一个"技能"——技能定义了推理逻辑模板（如身份匹配技能：提取视频 A 的外观特征 → 提取视频 B 的候选对象 → 计算相似度 → 排序），agent 根据问题自动路由到合适的技能
- 设计动机：不同类型的多视频推理有完全不同的逻辑——身份匹配需要跨视频的特征对齐，事件排序需要时间线构建，细粒度区分需要差异放大。通用的"让 LLM 想想"策略在所有类型上都不够专业
- 类比：类似人类专家系统——面对医学影像比较vs视频监控比对vs动作分析，使用完全不同的分析流程
冲突感知验证（Conflict-Aware Verification）:
- 做什么：在跨视频推理过程中检测矛盾信息，触发迭代修正而非盲目输出
- 核心思路：在推理每一步，模块检查当前结论与已有证据是否一致。当发现冲突（如视觉工具对视频 A 中某人识别为 X，但技能推理发现这与视频 B 的上下文矛盾），系统回溯到冲突点，调用更多工具获取额外证据，或切换推理策略重新分析
- 设计动机：多视频场景中矛盾信息高频出现——不同视角可能看到不同结果、不同时间点信息可能冲突、检测工具可能在不同视频上给出不一致的判断。直接取多数投票或平均化都不够——需要理解矛盾的来源并选择更可靠的证据
- 与简单 self-consistency 的区别：不是多次生成后投票，而是在推理过程中主动检测冲突并针对性地解决

MVX-Bench 基准¶

MVX-Bench (Multi-Video Cross-Dimension Benchmark) 的设计： - 任务来源: 11 个经典 CV 任务重构为多视频 QA 格式 - 身份匹配类：Person ReID、Vehicle ReID、Face Verification - 比较分析类：Action Comparison、Attribute Comparison - 跨视频推理类：Temporal Ordering、Spatial Reasoning - 细粒度区分类：Fine-grained Classification、Change Detection - 综合推理类：Multi-step Reasoning、Counterfactual - 规模: 1,442 个问题，覆盖 4,255 个真实世界视频 - 评测维度: 身份级匹配、细粒度区分、结构化多步推理三大能力

实验关键数据¶

主实验¶

方法	MVX-Bench 总准确率	身份匹配	细粒度区分	多步推理
GPT-4o	基线	较弱	中等	中等
Qwen2-VL-72B	基线+	中等	中等	中等
开源最佳直接推理	基线++	中等	中等	较弱
SAMA (ours)	最优	最优	最优	最优

SAMA 在所有 11 个子任务上都达到或超越最强基线。

消融实验¶

配置	MVX-Bench 准确率	说明
SAMA (Full)	最优	完整 agent 框架
w/o Skills	下降明显	去掉任务特定技能，用通用推理
w/o Conflict Verification	下降	去掉冲突感知，直接输出首次推理结果
w/o Visual Tools	下降最多	去掉专用工具，只用 MLLM 直接看帧
Direct Concatenation	最差	拼接后一次推理（标准基线）

关键发现¶

视觉工具贡献最大：去掉专用工具（w/o Visual Tools）性能下降最显著，验证了"让 MLLM 直接看压缩帧"在多视频场景下的根本局限
冲突感知验证在矛盾频繁的任务上增益最大：在身份匹配和细粒度区分任务上（多视频间更容易产生矛盾判断），去掉验证模块的性能损失明显高于其他任务类型
技能设计具有任务适配性：不同技能在对应任务上的贡献不均——身份匹配技能对 ReID 类任务贡献突出，时序推理技能对排序任务关键

亮点与洞察¶

从"一次推理"到"迭代 agent"的范式转换：多视频理解不应被看作"更长的单视频理解"——本质上是多源信息的融合-仲裁-推理过程，agentic 框架是更合适的范式。这个洞察有广泛意义，可迁移到多文档理解、多图理解等场景
冲突感知验证的通用性：多视频间的信息矛盾处理机制完全可以迁移到多源知识融合（如多篇论文观点冲突、多个数据库答案不一致）场景中
MVX-Bench 的设计思路：把经典 CV 任务重构为多视频 QA 是巧妙的——复用已有数据和评测标准，同时将问题统一到自然语言 QA 框架下，大幅降低评测成本

局限性 / 可改进方向¶

推理延迟：Agentic 框架的多轮工具调用 + 验证循环比直接拼接推理慢很多（可能慢 5-10x），实时应用受限
工具库的完备性：11 种 CV 任务各需对应工具，扩展到新任务需要整合新工具，系统维护成本较高
技能路由的鲁棒性：当问题不清楚属于哪个类型时，技能路由可能出错。更鲁棒的方案可能需要多技能融合或动态技能组合
规模可扩展性：4,255 视频的规模对基准来说适中，但更大规模（万级视频）下的 agent 效率还需验证
与 VLM 训练的结合：当前 SAMA 是 inference-time 方案，如果将 agentic 推理过程蒸馏到模型训练中（类似 Video-CoE 的 GRPO 思路），可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 多视频 + agentic 的结合是新方向，MVX-Bench 填补了评测空白
实验充分度: ⭐⭐⭐⭐ 11 任务 × 多基线 × 完整消融
写作质量: ⭐⭐⭐⭐ 问题动机清晰，benchmark 设计有说服力
价值: ⭐⭐⭐⭐ 推动多视频理解从简单拼接到结构化 agent 推理的范式转换