ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance¶

日期: 2026-03-24
arXiv: 2603.22872
代码: 无
领域: 视频理解 / 监控分析 / VideoRAG
关键词: forensic search, multimodal query, VideoRAG, surveillance VQA, temporal grounding

一句话总结¶

提出 ForeSea，一个面向监控视频的多模态 RAG 系统（人物跟踪→多模态嵌入→VideoLLM 推理），以及 ForeSeaQA——首个支持图文混合查询+时间戳定位的监控视频 QA benchmark（1041 问题/6 子任务），在准确率（66.0%）和时间 IoU（13.6%）上均超越现有 VideoRAG 方法。

研究背景与动机¶

领域现状: 监控视频分析仍大量依赖人工——在多小时、多摄像头视频中搜索特定目标需要手动筛选。现有方案包括跟踪 pipeline（ByteTrack 等，只能做基础分析）、CLIP-based 检索（只支持文本查询）、VideoRAG（不支持多模态查询）。
现有痛点: (1) 现实中的取证搜索需要多模态查询（"这个人什么时候加入打架？"+ 人物照片），但现有系统只支持纯文本查询；(2) CLIP+RAG 方法中文本 LLM 无法理解检索到的帧和时间关系；(3) 没有合适的 benchmark 评估多模态+时间定位的联合能力。
核心矛盾: 取证分析需要同时做到：识别特定人物（需要图像查询）→ 定位时间段 → 理解活动和事件，但现有方法各环节脱节。
切入角度: 以人为中心的检索——先用跟踪器把长视频分割成以人物为中心的短片段，大幅缩小搜索空间，再用多模态编码器统一索引。
核心 idea: 三阶段即插即用 pipeline（跟踪过滤 → 多模态索引 → VideoLLM 推理），简单但强大。

方法详解¶

整体框架¶

两阶段流程：(1) 视频数据库构建：跟踪模块提取以人物为中心的视频片段 → 多模态编码器生成嵌入向量 + 元数据存入数据库；(2) 查询回答：查询（纯文本或图+文）经同一编码器生成嵌入 → top-K 检索 → VideoLLM 生成带时间戳的回答。

关键设计¶

以人物为中心的跟踪过滤:
- 做什么：从长视频中提取以人物 bounding box 裁剪的短片段
- 核心思路：用现有跟踪器分割视频，每个片段只包含一个被跟踪人物的活动
- 设计动机：监控分析中绝大多数查询与人物相关，预先过滤可将搜索空间从小时级压缩到分钟级
多模态嵌入（VISTA/GCL 编码器）:
- 做什么：将视频片段和查询（文本/图文）映射到统一嵌入空间
- 核心思路：视频嵌入——对多帧视觉 token 均匀采样后经 MMEnc 得到 [CLS] 向量；查询嵌入——文本和图像 token 拼接后同一编码器处理
- 设计动机：原生支持文本和图文混合查询，无需额外适配
VideoLLM 推理:
- 做什么：对 top-K 检索结果进行推理，生成带时间戳的回答
- 核心思路：将检索到的片段拼接 + 原始查询 + bbox 元数据作为输入，让 VideoLLM 做最终回答
ForeSeaQA Benchmark:
- 基于 UCF-Crime 视频，半自动 data engine（LLM 提取实体 → LMM 视觉定位 → LLM 生成 QA → 人工验证）
- 1041 个问题，6 子任务：搜索(SE)、活动(AC)、事件(EV)、时间(TM)、计数(CT)、异常(AN)
- 每个问题包含多选答案 + 时间区间标注
- 人物相关问题附带参考图像，真正评估多模态查询能力

实验关键数据¶

主实验¶

方法	Accuracy	Temporal IoU
VideoLLaMA3 (端到端)	58.3%	-
VISTA + VideoRAG	62.5%	2.6
ForeSea	66.0%	13.6

准确率 +3.5%，时间 IoU +11.0，提升显著
在多模态查询子集(ForeSeaQA^MM)上准确率 65.4%，所有方法最优
端到端延迟 2.6s，低于所有 RAG baseline (5.2-7.6s)

消融实验¶

配置	Accuracy	说明
w/o 人物跟踪	下降	搜索空间太大，检索不准
w/o 多模态编码	下降	无法处理图文查询
减少 top-K	下降	关键片段被遗漏

关键发现¶

以人物为中心的检索是性能提升的核心——在 search 子任务上增益最大
多模态查询比纯文本查询更有效（有参考图像时更容易定位特定人物）
ForeSea 可泛化到开放域长视频 benchmark，在只用一半帧数的情况下匹配或超越 SOTA

亮点与洞察¶

简单三模块 pipeline 超越复杂方法：不需要端到端训练或复杂架构，即插即用的设计更利于实际部署
"以人为中心"是监控场景的强归纳偏置：大幅降低检索空间和推理负担
ForeSeaQA 填补了重要空白：首个支持图文混合查询+时间戳定位的监控 VQA benchmark

局限性 / 可改进方向¶

依赖人物跟踪器的质量——遮挡严重或跟踪丢失时会影响全局
目前只针对人物相关查询做了优化，物体或车辆相关查询未涉及
时间 IoU 绝对值仍然较低（13.6%），精确时间定位仍是开放问题
VideoLLM 推理阶段的幻觉问题未专门处理
data engine 依赖 LLM+LMM 自动生成 QA 对，可能存在系统性偏差，人工验证覆盖率有限

评分¶

新颖性: ⭐⭐⭐ 各模块都是现有技术的组合，但组合方式和 benchmark 设计有价值
实验充分度: ⭐⭐⭐⭐ 自建 benchmark + 开放域泛化 + 延迟对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，pipeline 描述到位
价值: ⭐⭐⭐⭐ Benchmark 和 baseline 对监控视频分析领域有重要推动