ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance¶
日期: 2026-03-24
arXiv: 2603.22872
代码: 无
领域: 视频理解 / 监控分析 / VideoRAG
关键词: forensic search, multimodal query, VideoRAG, surveillance VQA, temporal grounding
一句话总结¶
提出 ForeSea,一个面向监控视频的多模态 RAG 系统(人物跟踪→多模态嵌入→VideoLLM 推理),以及 ForeSeaQA——首个支持图文混合查询+时间戳定位的监控视频 QA benchmark(1041 问题/6 子任务),在准确率(66.0%)和时间 IoU(13.6%)上均超越现有 VideoRAG 方法。
研究背景与动机¶
-
领域现状: 监控视频分析仍大量依赖人工——在多小时、多摄像头视频中搜索特定目标需要手动筛选。现有方案包括跟踪 pipeline(ByteTrack 等,只能做基础分析)、CLIP-based 检索(只支持文本查询)、VideoRAG(不支持多模态查询)。
-
现有痛点: (1) 现实中的取证搜索需要多模态查询("这个人什么时候加入打架?"+ 人物照片),但现有系统只支持纯文本查询;(2) CLIP+RAG 方法中文本 LLM 无法理解检索到的帧和时间关系;(3) 没有合适的 benchmark 评估多模态+时间定位的联合能力。
-
核心矛盾: 取证分析需要同时做到:识别特定人物(需要图像查询)→ 定位时间段 → 理解活动和事件,但现有方法各环节脱节。
-
切入角度: 以人为中心的检索——先用跟踪器把长视频分割成以人物为中心的短片段,大幅缩小搜索空间,再用多模态编码器统一索引。
-
核心 idea: 三阶段即插即用 pipeline(跟踪过滤 → 多模态索引 → VideoLLM 推理),简单但强大。
方法详解¶
整体框架¶
两阶段流程:(1) 视频数据库构建:跟踪模块提取以人物为中心的视频片段 → 多模态编码器生成嵌入向量 + 元数据存入数据库;(2) 查询回答:查询(纯文本或图+文)经同一编码器生成嵌入 → top-K 检索 → VideoLLM 生成带时间戳的回答。
关键设计¶
-
以人物为中心的跟踪过滤:
- 做什么:从长视频中提取以人物 bounding box 裁剪的短片段
- 核心思路:用现有跟踪器分割视频,每个片段只包含一个被跟踪人物的活动
- 设计动机:监控分析中绝大多数查询与人物相关,预先过滤可将搜索空间从小时级压缩到分钟级
-
多模态嵌入(VISTA/GCL 编码器):
- 做什么:将视频片段和查询(文本/图文)映射到统一嵌入空间
- 核心思路:视频嵌入——对多帧视觉 token 均匀采样后经 MMEnc 得到 [CLS] 向量;查询嵌入——文本和图像 token 拼接后同一编码器处理
- 设计动机:原生支持文本和图文混合查询,无需额外适配
-
VideoLLM 推理:
- 做什么:对 top-K 检索结果进行推理,生成带时间戳的回答
- 核心思路:将检索到的片段拼接 + 原始查询 + bbox 元数据作为输入,让 VideoLLM 做最终回答
-
ForeSeaQA Benchmark:
- 基于 UCF-Crime 视频,半自动 data engine(LLM 提取实体 → LMM 视觉定位 → LLM 生成 QA → 人工验证)
- 1041 个问题,6 子任务:搜索(SE)、活动(AC)、事件(EV)、时间(TM)、计数(CT)、异常(AN)
- 每个问题包含多选答案 + 时间区间标注
- 人物相关问题附带参考图像,真正评估多模态查询能力
实验关键数据¶
主实验¶
| 方法 | Accuracy | Temporal IoU |
|---|---|---|
| VideoLLaMA3 (端到端) | 58.3% | - |
| VISTA + VideoRAG | 62.5% | 2.6 |
| ForeSea | 66.0% | 13.6 |
- 准确率 +3.5%,时间 IoU +11.0,提升显著
- 在多模态查询子集(ForeSeaQA^MM)上准确率 65.4%,所有方法最优
- 端到端延迟 2.6s,低于所有 RAG baseline (5.2-7.6s)
消融实验¶
| 配置 | Accuracy | 说明 |
|---|---|---|
| w/o 人物跟踪 | 下降 | 搜索空间太大,检索不准 |
| w/o 多模态编码 | 下降 | 无法处理图文查询 |
| 减少 top-K | 下降 | 关键片段被遗漏 |
关键发现¶
- 以人物为中心的检索是性能提升的核心——在 search 子任务上增益最大
- 多模态查询比纯文本查询更有效(有参考图像时更容易定位特定人物)
- ForeSea 可泛化到开放域长视频 benchmark,在只用一半帧数的情况下匹配或超越 SOTA
亮点与洞察¶
- 简单三模块 pipeline 超越复杂方法:不需要端到端训练或复杂架构,即插即用的设计更利于实际部署
- "以人为中心"是监控场景的强归纳偏置:大幅降低检索空间和推理负担
- ForeSeaQA 填补了重要空白:首个支持图文混合查询+时间戳定位的监控 VQA benchmark
局限性 / 可改进方向¶
- 依赖人物跟踪器的质量——遮挡严重或跟踪丢失时会影响全局
- 目前只针对人物相关查询做了优化,物体或车辆相关查询未涉及
- 时间 IoU 绝对值仍然较低(13.6%),精确时间定位仍是开放问题
- VideoLLM 推理阶段的幻觉问题未专门处理
- data engine 依赖 LLM+LMM 自动生成 QA 对,可能存在系统性偏差,人工验证覆盖率有限
相关工作与启发¶
- vs VideoRAG (通用): 通用 VideoRAG 缺少人物跟踪预过滤,在监控场景下效率和准确率都不如 ForeSea
- vs SurveillanceVQA-589K: 只支持纯文本查询,不评估时间定位
- vs MomentSeeker: 做时间检索但面向单事件,不处理多模态查询和取证场景
- 对实际部署的启示: 即插即用架构意味着可以随时替换任一模块(升级跟踪器、换更强的 VideoLLM),不需要重新训练整个系统
评分¶
- 新颖性: ⭐⭐⭐ 各模块都是现有技术的组合,但组合方式和 benchmark 设计有价值
- 实验充分度: ⭐⭐⭐⭐ 自建 benchmark + 开放域泛化 + 延迟对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,pipeline 描述到位
- 价值: ⭐⭐⭐⭐ Benchmark 和 baseline 对监控视频分析领域有重要推动