跳转至

ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

日期: 2026-03-24
arXiv: 2603.22872
代码: 无
领域: 视频理解 / 监控分析 / VideoRAG
关键词: forensic search, multimodal query, VideoRAG, surveillance VQA, temporal grounding

一句话总结

提出 ForeSea,一个面向监控视频的多模态 RAG 系统(人物跟踪→多模态嵌入→VideoLLM 推理),以及 ForeSeaQA——首个支持图文混合查询+时间戳定位的监控视频 QA benchmark(1041 问题/6 子任务),在准确率(66.0%)和时间 IoU(13.6%)上均超越现有 VideoRAG 方法。

研究背景与动机

  1. 领域现状: 监控视频分析仍大量依赖人工——在多小时、多摄像头视频中搜索特定目标需要手动筛选。现有方案包括跟踪 pipeline(ByteTrack 等,只能做基础分析)、CLIP-based 检索(只支持文本查询)、VideoRAG(不支持多模态查询)。

  2. 现有痛点: (1) 现实中的取证搜索需要多模态查询("这个人什么时候加入打架?"+ 人物照片),但现有系统只支持纯文本查询;(2) CLIP+RAG 方法中文本 LLM 无法理解检索到的帧和时间关系;(3) 没有合适的 benchmark 评估多模态+时间定位的联合能力。

  3. 核心矛盾: 取证分析需要同时做到:识别特定人物(需要图像查询)→ 定位时间段 → 理解活动和事件,但现有方法各环节脱节。

  4. 切入角度: 以人为中心的检索——先用跟踪器把长视频分割成以人物为中心的短片段,大幅缩小搜索空间,再用多模态编码器统一索引。

  5. 核心 idea: 三阶段即插即用 pipeline(跟踪过滤 → 多模态索引 → VideoLLM 推理),简单但强大。

方法详解

整体框架

两阶段流程:(1) 视频数据库构建:跟踪模块提取以人物为中心的视频片段 → 多模态编码器生成嵌入向量 + 元数据存入数据库;(2) 查询回答:查询(纯文本或图+文)经同一编码器生成嵌入 → top-K 检索 → VideoLLM 生成带时间戳的回答。

关键设计

  1. 以人物为中心的跟踪过滤:

    • 做什么:从长视频中提取以人物 bounding box 裁剪的短片段
    • 核心思路:用现有跟踪器分割视频,每个片段只包含一个被跟踪人物的活动
    • 设计动机:监控分析中绝大多数查询与人物相关,预先过滤可将搜索空间从小时级压缩到分钟级
  2. 多模态嵌入(VISTA/GCL 编码器):

    • 做什么:将视频片段和查询(文本/图文)映射到统一嵌入空间
    • 核心思路:视频嵌入——对多帧视觉 token 均匀采样后经 MMEnc 得到 [CLS] 向量;查询嵌入——文本和图像 token 拼接后同一编码器处理
    • 设计动机:原生支持文本和图文混合查询,无需额外适配
  3. VideoLLM 推理:

    • 做什么:对 top-K 检索结果进行推理,生成带时间戳的回答
    • 核心思路:将检索到的片段拼接 + 原始查询 + bbox 元数据作为输入,让 VideoLLM 做最终回答
  4. ForeSeaQA Benchmark:

    • 基于 UCF-Crime 视频,半自动 data engine(LLM 提取实体 → LMM 视觉定位 → LLM 生成 QA → 人工验证)
    • 1041 个问题,6 子任务:搜索(SE)、活动(AC)、事件(EV)、时间(TM)、计数(CT)、异常(AN)
    • 每个问题包含多选答案 + 时间区间标注
    • 人物相关问题附带参考图像,真正评估多模态查询能力

实验关键数据

主实验

方法 Accuracy Temporal IoU
VideoLLaMA3 (端到端) 58.3% -
VISTA + VideoRAG 62.5% 2.6
ForeSea 66.0% 13.6
  • 准确率 +3.5%,时间 IoU +11.0,提升显著
  • 在多模态查询子集(ForeSeaQA^MM)上准确率 65.4%,所有方法最优
  • 端到端延迟 2.6s,低于所有 RAG baseline (5.2-7.6s)

消融实验

配置 Accuracy 说明
w/o 人物跟踪 下降 搜索空间太大,检索不准
w/o 多模态编码 下降 无法处理图文查询
减少 top-K 下降 关键片段被遗漏

关键发现

  • 以人物为中心的检索是性能提升的核心——在 search 子任务上增益最大
  • 多模态查询比纯文本查询更有效(有参考图像时更容易定位特定人物)
  • ForeSea 可泛化到开放域长视频 benchmark,在只用一半帧数的情况下匹配或超越 SOTA

亮点与洞察

  • 简单三模块 pipeline 超越复杂方法:不需要端到端训练或复杂架构,即插即用的设计更利于实际部署
  • "以人为中心"是监控场景的强归纳偏置:大幅降低检索空间和推理负担
  • ForeSeaQA 填补了重要空白:首个支持图文混合查询+时间戳定位的监控 VQA benchmark

局限性 / 可改进方向

  • 依赖人物跟踪器的质量——遮挡严重或跟踪丢失时会影响全局
  • 目前只针对人物相关查询做了优化,物体或车辆相关查询未涉及
  • 时间 IoU 绝对值仍然较低(13.6%),精确时间定位仍是开放问题
  • VideoLLM 推理阶段的幻觉问题未专门处理
  • data engine 依赖 LLM+LMM 自动生成 QA 对,可能存在系统性偏差,人工验证覆盖率有限

相关工作与启发

  • vs VideoRAG (通用): 通用 VideoRAG 缺少人物跟踪预过滤,在监控场景下效率和准确率都不如 ForeSea
  • vs SurveillanceVQA-589K: 只支持纯文本查询,不评估时间定位
  • vs MomentSeeker: 做时间检索但面向单事件,不处理多模态查询和取证场景
  • 对实际部署的启示: 即插即用架构意味着可以随时替换任一模块(升级跟踪器、换更强的 VideoLLM),不需要重新训练整个系统

评分

  • 新颖性: ⭐⭐⭐ 各模块都是现有技术的组合,但组合方式和 benchmark 设计有价值
  • 实验充分度: ⭐⭐⭐⭐ 自建 benchmark + 开放域泛化 + 延迟对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,pipeline 描述到位
  • 价值: ⭐⭐⭐⭐ Benchmark 和 baseline 对监控视频分析领域有重要推动