ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search¶

会议: CVPR 2026
arXiv: 2604.12762
代码: 无
领域: 人体理解
关键词: 多摄像头搜索, 智能体推理, 时空拓扑图, 交互式对话, 行人搜索

一句话总结¶

本文提出 ARGOS，首个将多摄像头行人搜索重新定义为交互式推理问题的基准和框架，智能体通过与目击者进行多轮对话、调用时空工具并在信息不对称下推理排除候选人，包含 2,691 个任务、3 个渐进式赛道。

研究背景与动机¶

领域现状：多摄像头行人搜索是监控领域的基础需求。传统行人重识别依赖清晰的视觉查询，文本驱动和交互式方法仅使用外观描述。现有空间推理基准和智能体评估框架局限于单图或通用场景。
现有痛点：现有方法缺乏主动提问规划能力，无法利用目击者提供的时空线索（如"我在仓库看到他们，几分钟后在大厅附近"）。没有方法同时整合多模态交互、空间定位和时间推理。
核心矛盾：真实世界的行人搜索本质上是一个主动推理问题——需要在信息不对称下决定"问什么、何时调用工具、如何解释模糊回答"，但现有基准和方法都将其简化为被动的视觉匹配。
本文目标：定义交互式多摄像头行人搜索任务，构建包含语义感知（Who）、空间推理（Where）和时间推理（When）的渐进式基准。
切入角度：将摄像头网络编码为时空拓扑图（STTG），作为任务构建的结构骨架和智能体的定位工具，支持基于物理约束的时间可行性推理。
核心 idea：用 LLM 驱动的四模块智能体（分析→规划→访谈→解释）在 STTG 上进行多轮对话推理，通过工具调用消除不可行的候选人。

方法详解¶

整体框架¶

智能体接收初始目击者陈述和行人库 \(\mathcal{G}\)，在有限回合内通过多轮对话确定目标行人。对话中可选择三类动作：询问视觉属性、查询空间位置、调用时间推理。STTG 提供摄像头连接关系和经验验证的转移时间。

关键设计¶

时空拓扑图（STTG）:
- 功能：编码摄像头网络的物理连接和时间约束
- 核心思路：有向加权图 \(\mathcal{T} = (V, E)\)，节点为摄像头（含区域标签），边携带类型（OVERLAP=共享视野、SOFT_ADJ=软相邻、TRAVEL=远距离）和转移时间统计 \((t_{\min}, t_{\text{med}}, t_{\max}, n)\)。OVERLAP 边的连通分量定义区域。STTG 双重角色：基准从中生成真值任务，智能体将其作为环境表示进行推理。
- 设计动机：将原本模糊的"从A到B需要多久"转化为可计算的图约束，使时间推理有据可循
三赛道渐进式基准:
- 功能：分层评估从感知到时空推理的递进能力
- 核心思路：Track 1 Who（989 任务）测试语义感知——智能体接收完整对话记录，提取属性过滤行人库；Track 2 Where（550 任务）测试空间推理——目击者报告在某区域看到目标，智能体通过空间和属性问题定位具体子区域（oracle 平均 2.02 轮）；Track 3 When（1,152 任务）测试时间推理——目击者报告两次不同时间地点的目击，智能体利用 STTG 排除转移时间不可行的候选人（oracle 平均 1.89 轮）。采用 Turn-Weighted Success (TWS) 指标联合衡量正确率和轮次效率。
- 设计动机：渐进式设计允许精确诊断能力瓶颈；TWS 借鉴具身导航中 SPL 的设计思想
四模块 LLM 智能体:
- 功能：通过结构化推理管线高效完成行人搜索
- 核心思路：Analyst 查询行人库并计算属性消除力；Planner 决定下一步动作；Interviewer 通过工具执行动作（8 种工具：行人库查询、区域结构检索、目击者交互、STTG 时间可行性检查、过滤/预测）；Interpreter 解析目击者回答并应用过滤。关键设计是"信息边界"：智能体不知道目击者能回答哪些属性（21 个中仅 3 个可观测），必须在不确定性下做策略决策。
- 设计动机：将复杂的推理任务分解为可控的模块化步骤，每个模块有明确职责

损失函数 / 训练策略¶

无训练，使用冻结的 LLM 骨干（GPT-5.2、GPT-4o、GPT-5-mini、Claude Sonnet 4）直接推理。温度 0.0，20 轮预算。

实验关键数据¶

主实验¶

骨干模型	Track 2 TWS	Track 2 Top-1	Track 3 TWS	Track 3 Top-1
Oracle	1.000	100.0%	1.000	100.0%
GPT-5.2	0.338	73.1%	0.590	88.2%
Claude Sonnet 4	0.383	76.0%	0.548	82.8%
GPT-4o	0.323	74.5%	0.567	80.6%

消融实验¶

配置	Track 3 TWS	说明
完整工具集	0.590	GPT-5.2
移除时空工具	~0.30	下降 49.6 百分点
移除属性分析工具	~0.45	策略选择变差

关键发现¶

基准远未被解决：最佳 TWS 仅 0.383（Track 2）和 0.590（Track 3），Oracle 均为 1.0
工具移除造成巨大性能下降（49.6 百分点），证明领域特定工具对任务至关重要
空间推理是最大瓶颈：Track 2 的 TWS 远低于 Track 3，因为空间消歧需要更多轮次且更依赖策略规划

亮点与洞察¶

将行人搜索重定义为交互式推理是视角创新：从被动的视觉匹配转为主动的对话推理，更贴近真实安防场景中人与系统的交互模式
STTG 的双重角色设计巧妙：既是数据集构建的结构骨架（保证任务有明确真值），又是智能体的推理工具（提供可计算的时空约束）
信息边界设计增加了任务的策略深度：智能体不知道目击者能回答什么，必须在有限预算下智能探索

局限与展望¶

目击者模拟器是确定性的（固定模板），缺乏真实人类回答的噪声和歧义
仅使用 3 个可观测属性（性别、上衣颜色、下衣颜色），实际场景中目击者可能提供更丰富的描述
16 个摄像头的规模较小，未验证在大规模摄像头网络上的可扩展性
未来可引入视觉理解能力，让智能体直接从摄像头画面中提取信息

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将多摄像头行人搜索定义为交互式推理问题，STTG 设计原创
实验充分度: ⭐⭐⭐⭐ 四个 LLM、三个赛道，但缺少与传统 Re-ID 方法的对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，赛道设计逻辑连贯
价值: ⭐⭐⭐⭐ 开辟了行人搜索的新范式，基准有长期价值