SAMA: A Skill-augmented Agentic Framework and Benchmark for Multi-Video Understanding¶
日期: 2026-03-16
arXiv: 2603.14733
领域: 视频理解 / LLM Agent
关键词: 多视频理解, 技能增强, 冲突感知验证, 跨视频推理, 视觉工具, MVX-Bench
一句话总结¶
提出 MVX-Bench(将 11 个经典 CV 任务重构为多视频 QA,1,442 问题/4,255 视频)和 SAMA agent 框架(视觉工具执行底层分析 + 任务特定技能提供专业推理能力 + 冲突感知验证迭代修正矛盾信息),在跨视频推理上系统性超越 GPT 系列和开源基线,消融验证各组件有效性。
研究背景与动机¶
-
领域现状: MLLM 在单视频理解上已经取得了强劲表现(如 VideoLLaMA、Video-ChatGPT 等),但当需要同时理解和推理多个视频时,能力急剧下降。现有处理多视频的标准做法是将多个视频帧简单拼接为一个长序列,然后做一次性推理。
-
现有痛点: (a) 训练-推理不匹配——多数 MLLM 是在单视频上训练的,推理时突然输入多视频拼接序列会导致分布 drift;(b) 帧压缩信息丢失——为了控制序列长度,需要对每个视频大幅压缩帧数,fine-grained 视觉信息被丢弃;(c) 缺乏显式跨视频协调——模型内部没有机制显式比较不同视频中的内容,跨视频的关联推理完全依赖隐式的注意力机制。
-
核心矛盾: 多视频推理的本质困难:不同视频可能提供互补信息(需要融合),也可能提供矛盾信息(需要仲裁),还可能需要多步推理(先从视频 A 提取信息 → 用于理解视频 B 的内容)。简单拼接后一次推理的范式无法处理这三种情况。
-
本文要解决什么: (a) 缺少全面评测多视频推理能力的基准(现有基准主要关注事件级比较,忽略身份匹配、细粒度区分、多步推理);(b) 需要一种能显式协调多视频信息、处理矛盾、支持迭代推理的方法。
-
切入角度: 从 Agentic AI 的视角重新思考多视频理解——将其从"一次性推理问题"重构为"迭代决策问题"。Agent 可以按需调用视觉工具分析各视频、运用任务特定技能执行专业操作、在发现矛盾时主动验证和修正。
-
核心 idea: 用 agentic 框架替代"拼接后一次推理"——整合视觉工具(底层感知)、任务特定技能(领域知识)和冲突感知验证(矛盾处理),形成可迭代、可解释的多视频推理系统。
方法详解¶
整体框架¶
SAMA 是一个三层架构的 agent 系统: - 感知层(Visual Tools): 调用专用视觉模型对各视频分别执行底层分析(目标检测、动作识别、特征提取等),产生结构化中间结果 - 推理层(Task-Specific Skills): 根据问题类型激活对应的技能模块,利用感知层结果执行跨视频比较、匹配或推理 - 验证层(Conflict-Aware Verification): 检查推理过程中是否存在矛盾(如视频 A 的分析结果与视频 B 冲突),触发迭代修正
输入:多个视频 + 自然语言问题 → 输出:结构化答案
关键设计¶
-
视觉工具集成(Visual Tools):
- 做什么:为 agent 提供"眼睛"——调用专用视觉模型执行底层分析,避免 MLLM 直接从原始帧做一切
- 核心思路:维护一个视觉工具库(如目标检测器、动作识别器、OCR 工具、人脸匹配器等),agent 根据问题需求选择性调用。每个工具对单个视频执行分析,返回结构化结果(如检测框列表、动作标签、文字内容)
- 设计动机:让 MLLM 直接从压缩帧序列读取 fine-grained 信息几乎不可能——检测一个小物体需要高分辨率输入,而多视频拼接后的帧数和分辨率都极度受限。专用工具在各自任务上远优于通用 MLLM
- 与现有方法区别:VideoAgent 等工作也使用工具,但主要面向单视频。SAMA 的工具化设计针对多视频场景——同一工具可以分别作用于不同视频,结果被结构化地组织以供跨视频比较
-
任务特定技能(Task-Specific Skills):
- 做什么:为不同类型的跨视频推理提供专用的推理策略
- 核心思路:11 种 CV 任务(如 ReID 身份匹配、动作比较、场景变化检测等)各对应一个"技能"——技能定义了推理逻辑模板(如身份匹配技能:提取视频 A 的外观特征 → 提取视频 B 的候选对象 → 计算相似度 → 排序),agent 根据问题自动路由到合适的技能
- 设计动机:不同类型的多视频推理有完全不同的逻辑——身份匹配需要跨视频的特征对齐,事件排序需要时间线构建,细粒度区分需要差异放大。通用的"让 LLM 想想"策略在所有类型上都不够专业
- 类比:类似人类专家系统——面对医学影像比较vs视频监控比对vs动作分析,使用完全不同的分析流程
-
冲突感知验证(Conflict-Aware Verification):
- 做什么:在跨视频推理过程中检测矛盾信息,触发迭代修正而非盲目输出
- 核心思路:在推理每一步,模块检查当前结论与已有证据是否一致。当发现冲突(如视觉工具对视频 A 中某人识别为 X,但技能推理发现这与视频 B 的上下文矛盾),系统回溯到冲突点,调用更多工具获取额外证据,或切换推理策略重新分析
- 设计动机:多视频场景中矛盾信息高频出现——不同视角可能看到不同结果、不同时间点信息可能冲突、检测工具可能在不同视频上给出不一致的判断。直接取多数投票或平均化都不够——需要理解矛盾的来源并选择更可靠的证据
- 与简单 self-consistency 的区别:不是多次生成后投票,而是在推理过程中主动检测冲突并针对性地解决
MVX-Bench 基准¶
MVX-Bench (Multi-Video Cross-Dimension Benchmark) 的设计: - 任务来源: 11 个经典 CV 任务重构为多视频 QA 格式 - 身份匹配类:Person ReID、Vehicle ReID、Face Verification - 比较分析类:Action Comparison、Attribute Comparison - 跨视频推理类:Temporal Ordering、Spatial Reasoning - 细粒度区分类:Fine-grained Classification、Change Detection - 综合推理类:Multi-step Reasoning、Counterfactual - 规模: 1,442 个问题,覆盖 4,255 个真实世界视频 - 评测维度: 身份级匹配、细粒度区分、结构化多步推理三大能力
实验关键数据¶
主实验¶
| 方法 | MVX-Bench 总准确率 | 身份匹配 | 细粒度区分 | 多步推理 |
|---|---|---|---|---|
| GPT-4o | 基线 | 较弱 | 中等 | 中等 |
| Qwen2-VL-72B | 基线+ | 中等 | 中等 | 中等 |
| 开源最佳直接推理 | 基线++ | 中等 | 中等 | 较弱 |
| SAMA (ours) | 最优 | 最优 | 最优 | 最优 |
SAMA 在所有 11 个子任务上都达到或超越最强基线。
消融实验¶
| 配置 | MVX-Bench 准确率 | 说明 |
|---|---|---|
| SAMA (Full) | 最优 | 完整 agent 框架 |
| w/o Skills | 下降明显 | 去掉任务特定技能,用通用推理 |
| w/o Conflict Verification | 下降 | 去掉冲突感知,直接输出首次推理结果 |
| w/o Visual Tools | 下降最多 | 去掉专用工具,只用 MLLM 直接看帧 |
| Direct Concatenation | 最差 | 拼接后一次推理(标准基线) |
关键发现¶
- 视觉工具贡献最大:去掉专用工具(w/o Visual Tools)性能下降最显著,验证了"让 MLLM 直接看压缩帧"在多视频场景下的根本局限
- 冲突感知验证在矛盾频繁的任务上增益最大:在身份匹配和细粒度区分任务上(多视频间更容易产生矛盾判断),去掉验证模块的性能损失明显高于其他任务类型
- 技能设计具有任务适配性:不同技能在对应任务上的贡献不均——身份匹配技能对 ReID 类任务贡献突出,时序推理技能对排序任务关键
亮点与洞察¶
- 从"一次推理"到"迭代 agent"的范式转换:多视频理解不应被看作"更长的单视频理解"——本质上是多源信息的融合-仲裁-推理过程,agentic 框架是更合适的范式。这个洞察有广泛意义,可迁移到多文档理解、多图理解等场景
- 冲突感知验证的通用性:多视频间的信息矛盾处理机制完全可以迁移到多源知识融合(如多篇论文观点冲突、多个数据库答案不一致)场景中
- MVX-Bench 的设计思路:把经典 CV 任务重构为多视频 QA 是巧妙的——复用已有数据和评测标准,同时将问题统一到自然语言 QA 框架下,大幅降低评测成本
相关工作与启发¶
- vs VideoAgent (ECCV 2024): VideoAgent 也用 agentic 框架处理视频,但面向单视频长视频理解。SAMA 扩展到多视频场景,增加了跨视频协调和冲突处理
- vs Video-CoE (本日同期): Video-CoE 用 Chain of Events 做视频事件预测,是单视频的时序推理强化。SAMA 面向跨视频推理,两者互补——CoE 的时序建模思路可以增强 SAMA 在时序排序类任务上的能力
- vs 多文档 QA Agent: 类似 self-RAG、CRAG 等多文档检索增强方法,但 SAMA 处理的是视觉模态而非文本
局限性 / 可改进方向¶
- 推理延迟:Agentic 框架的多轮工具调用 + 验证循环比直接拼接推理慢很多(可能慢 5-10x),实时应用受限
- 工具库的完备性:11 种 CV 任务各需对应工具,扩展到新任务需要整合新工具,系统维护成本较高
- 技能路由的鲁棒性:当问题不清楚属于哪个类型时,技能路由可能出错。更鲁棒的方案可能需要多技能融合或动态技能组合
- 规模可扩展性:4,255 视频的规模对基准来说适中,但更大规模(万级视频)下的 agent 效率还需验证
- 与 VLM 训练的结合:当前 SAMA 是 inference-time 方案,如果将 agentic 推理过程蒸馏到模型训练中(类似 Video-CoE 的 GRPO 思路),可能进一步提升性能
评分¶
- 新颖性: ⭐⭐⭐⭐ 多视频 + agentic 的结合是新方向,MVX-Bench 填补了评测空白
- 实验充分度: ⭐⭐⭐⭐ 11 任务 × 多基线 × 完整消融
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,benchmark 设计有说服力
- 价值: ⭐⭐⭐⭐ 推动多视频理解从简单拼接到结构化 agent 推理的范式转换