跳转至

A4VL: A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning

会议: CVPR 2026
arXiv: 2603.14052
代码: https://github.com/git-disl/A4VL (有)
领域: 多模态VLM / 视频理解
关键词: 多Agent联盟, 长视频推理, 感知-行动探索, 交叉审查共识, 事件驱动分区, Agent剪枝

一句话总结

提出 A4VL,一个 training-free 的多 Agent 感知-行动联盟框架:多个异构 VLM Agent 在多轮循环中执行感知探索(事件分区 + CLIP 线索对齐定位关键帧)和行动探索(独立推理 → 交叉评分 → 共识/剪枝),在 5 个 VideoQA 基准上全面超越 18 个 VLM 和 11 个长视频专用方法,且推理延迟显著更低(MLVU 上 74s vs GPT-4o 127s)。

背景与动机

长视频推理面临效率和质量的双重挑战: - 计算开销:视频帧数多,注意力机制的 memory 和时间开销随帧数二次增长。GPT-4o 在 Video-MME 上平均每题需 150s+ - 信息稀疏:关键信息分散在长序列中,简单增大采样密度反而引入冗余噪声,注意力被无关帧分散 - 单 Agent 局限:现有 agent 方法(如 VideoAgent)通常依赖单一 MLLM 做决策,不支持多 Agent 协作;且依赖视频定位模型,对复杂查询定位效果差;VideoAgent 处理一小时视频需 10 分钟+

核心问题

如何在有限帧预算下高效处理真实世界长视频,同时保持高质量视频推理?

方法详解

整体架构

A4VL 由三个核心组件构成:Agent 组队策略、感知探索(Perception Exploration)、行动探索(Action Exploration)。两步迭代执行直到达成共识。

1. Agent 组队(Agent Teaming)

从 8 个候选 MLLM 池(含 7B 到 78B 不等的开源模型)中选出 m=3 个最协作的 Agent: - 随机抽取 K 个无标签 video-question 对 - 每个 Agent 独立运行感知+回答流程,统计每个问题各选项的被选频率 f_qr - 计算每个 Agent 的得分:其选择的选项在所有 Agent 中的平均频率 - 选得分最高的 3 个 Agent 组成团队

关键洞察:不需要标签,利用 Agent 间的一致性作为代理信号。不同 benchmark 选出的队伍不同(如 NeXT-QA/EgoSchema/LongVideoBench 都选了 InternVL3-78B + InternVL3.5-38B + QwenVL-2.5-72B,MLVU 则换入 LLaVA-Video-72B)。

2. 感知探索(Perception Exploration)

分为两个阶段:

Stage 1 — 线索生成:每个 Agent 从全视频随机采样 N₁=4 帧做预览,结合问题和选项生成一段文本形式的感知线索(perception clue),描述需要在视频中寻找的关键视觉内容。 - 选择随机采样而非事件采样,因为此阶段只需粗粒度覆盖,均匀随机的时间覆盖度更高

Stage 2 — 线索引导的块对齐采样: - 用事件驱动分区将视频切分为至多 B 个语义块:基于 DINOv2 嵌入 + HSV/运动/锐度像素线索检测场景变化,用 KTS、PELT、SSM-novelty 生成候选边界,NMS 去重,保留 top B-1 个边界(大多数视频 <2s 完成) - 用 CLIP 计算每个块与每个 Agent 感知线索的相似度 - 若所有块相似度 < ρ=0.8:只从最相关的单个块采样 N₂=16 帧 - 否则保留相似度 > ρ 的块,按 softmax 归一化分数分配帧数,总计采样 N₂=16 帧 - 每个 Agent 的采样帧集合可以不同(因为感知线索不同)

3. 行动探索(Action Exploration)

分为两个阶段:

Stage 1 — 独立推理:每个 Agent 基于自己的 N₂ 帧独立生成答案 a_{i,j} 和推理依据 R_{i,j}。

Stage 2 — 共识与剪枝: - 共识检查:若所有 Agent 答案一致(Full Consensus),由 summarizer 汇总所有推理过程,输出最终答案和解释 - 交叉评分:若未达共识,每个 Agent 给所有 Agent(含自己)的答案打 1-10 分 - Agent 剪枝:总分最低的 Agent 被移出团队 - 线索精炼:剩余 Agent 基于当前轮的答案集、推理集、被剪枝 Agent 信息,生成更精确的新线索 P_{i,j+1} - 返回感知探索 Stage 2,开始新一轮(最多 3 轮,因为 3 个 Agent)

设计选择的消融验证(EgoSchema)

设计维度 选项 准确率 备注
采样策略 RR(全随机) 80.2%
RE(感知随机+行动事件) 82.2% A4VL 默认
ER(感知事件+行动随机) 79.6%
共识条件 多数共识 81.4%(26s)
完全共识 82.2%(37s) A4VL 默认,多轮带来更高信心
剪枝 不剪枝(Sum) 80.8%(60s)
不剪枝(Maj) 79.4%(60s)
A4VL 剪枝 82.2%(37s) 剪枝同时提升精度和效率

实验关键数据

主要结果(5 个 benchmark,对比 28+ 方法)

基准 A4VL 最强基线 提升
NeXT-QA 85.1% InternVL3-78B 84.0% +1.1
EgoSchema 82.2% LVAgent 78.4% +3.8
LongVideoBench 72.2% GPT-4o 66.7% +5.5
MLVU-Test 58.0% InternVL3.5-38B 56.1% +1.9
Video-MME (w/o sub) 77.2% Gemini 1.5 Pro 75.0% +2.2
  • LongVideoBench 上增益最大(+5.5),完全用开源模型超越 GPT-4o
  • EgoSchema 是唯一突破 80% 的方法

推理效率(每样本平均时间)

方法 NeXT-QA EgoSchema MLVU
GPT-4o 23s 54s 127s
InternVL3-78B 15s 50s 204s
VideoAgent 20s 83s 175s
TraveLER 101s 94s 450s
A4VL 18s 37s 74s

MLVU 上 A4VL 比 GPT-4o 快 42%,比 TraveLER 快 6 倍。视频越长优势越明显。

多轮协作统计

数据集越难,Agent 倾向更多轮协作。MLVU 上约 40% 的问题需要 3 轮,NeXT-QA 约 13%。

亮点

  • 异构多 Agent 协作:利用不同 MLLM 的互补优势 + 交叉验证,比任何单一模型都更可靠
  • 感知-行动解耦:先用极少帧(4帧)生成线索再精准定位,避免处理整个视频的巨大开销
  • 事件驱动分区:基于 DINOv2 的无监督场景切分语义上有意义,且极快(<2s)
  • 动态剪枝:不仅提升精度(移除错误 Agent),还降低后续轮的计算量
  • 完全 training-free:无需微调任何模型,直接组合现有开源 VLM

局限性 / 可改进方向

  • 需要同时部署多个大模型(实验用 6 张 H200),对硬件要求高
  • Agent 组队阶段需要少量任务数据(虽然无标签),cold-start 场景受限
  • 仅处理视频视觉信息,未利用音频模态
  • CLIP 作为线索-块相似度模型较简单,更强的跨模态匹配可能进一步提升定位质量
  • 固定 N₁=4, N₂=16 的帧预算可能对不同时长/复杂度的视频不够自适应

评分

  • 新颖性: ⭐⭐⭐⭐ 多Agent感知-行动联盟设计新颖,感知线索→事件分区→CLIP对齐的pipeline设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ 5基准28+方法全面对比,消融覆盖采样/共识/剪枝/轮数,效率数据完整
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式化描述严谨,Figure 4 的案例可视化直观
  • 价值: ⭐⭐⭐⭐ training-free + 开源模型超GPT-4o,工程上可落地的长视频推理方案