Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task¶

基本信息¶

arXiv: 2512.10359
会议: NeurIPS 2025 Main Track
作者: Sunqi Fan, Jiashuo Cui, Meng-Hao Guo, Shuojin Yang
代码: https://github.com/fansunqi/VideoTool
领域: VideoQA / MLLM / Tool Use / Spatiotemporal Reasoning

一句话总结¶

论文为复杂 VideoQA 提出一套轻量但可扩展的 Video Toolkit，并设计 STAR（Spatiotemporal Reasoning Framework）来调度时间工具与空间工具的调用顺序，逐步定位视频关键区域，显著增强 GPT-4o 的时空推理能力，在 VideoMME 上提升 8.2%，在 LongVideoBench 上提升 4.6%。

背景与动机¶

现有 MLLM 做 VideoQA 的主要难点是： - 难同时建模帧内空间关系与跨帧因果变化； - 工具增强方案常工具太杂、调用无序； - 容易出现 toolchain shortcut，模型不是真正推理，而是投机性调用。

作者的核心观点是：视频推理不仅需要工具，还需要严格的时空调度策略。

核心问题¶

如何设计一个既足够强大又不会失控的工具增强框架，使 MLLM 在视频问答中循序渐进地完成 temporal reasoning 与 spatial grounding？

方法详解¶

1. Comprehensive and Extensible Video Toolkit¶

作者构建一套轻量视频工具集，用于辅助 MLLM： - 覆盖时序分析与空间分析； - 注重工具数量与多样性的平衡； - 保证增强能力同时避免系统过重。

2. STAR：Spatiotemporal Reasoning Framework¶

STAR 的关键不是简单让模型“自由调用工具”，而是： - 战略性安排 temporal tools 与 spatial tools 的执行顺序； - 先粗定位时间，再细定位空间，或按任务需求交替推进； - 逐步缩小视频中关键区域和关键时段。

这比无约束 tool-use 更接近真实推理流程。

3. 避免 Toolchain Shortcut¶

作者明确关注一个很实际的问题：工具链捷径。STAR 通过控制调用序列来降低模型跳过关键推理步骤的风险，使工具调用更可解释。

实验结论¶

在 VideoMME 上提升 8.2%；
在 LongVideoBench 上提升 4.6%；
说明轻量工具配合合理调度，足以显著增强强基座模型的 VideoQA 推理能力。

亮点¶

非常贴近 agent 设计：工具集 + 调度框架本质上就是视频分析 agent。
关注顺序控制：不是盲目堆工具，而是做 reasoning orchestration。
结果清晰直接：对 GPT-4o 增益显著。
可扩展性强：工具集和框架都适合后续扩展。

局限性¶

性能依赖底座 MLLM 的原生能力。
工具调度策略在更多任务上的泛化还需验证。
可能增加系统复杂度和推理时延。

与相关工作的对比¶

相比纯 prompt-based VideoQA：STAR 显式引入外部工具与推理流程。
相比无约束 tool-use agent：更强调时空顺序控制与 shortcut 避免。
相比单一视频特征增强：该方法在系统层面优化 reasoning pipeline。

启发¶

可把 STAR 思路迁移到长视频理解、具身视频回放分析、视频监控 agent。
与 FutureSightDrive 的 visual CoT 思路互补：一个加强工具推理，一个加强视觉中间表示。
对通用多模态 agent 来说，tool scheduling 可能比工具本身更关键。

评分¶

新颖性：★★★★☆
技术深度：★★★★☆
Agent 相关性：★★★★★
实用价值：★★★★★