跳转至

LLaVA-ReID: Selective Multi-Image Questioner for Interactive Person Re-Identification

会议: ICML 2025
arXiv: 2504.10174
领域: 人体理解

一句话总结

本文定义了交互式行人重识别(Inter-ReID)新任务,构建了 Interactive-PEDES 多轮对话数据集,并提出 LLaVA-ReID——一个基于选择性多图像上下文和前瞻性监督的大多模态问题生成模型,通过迭代对话逐步细化目标人物描述。

研究背景与动机

传统文本行人重识别(T-ReID)假设目击者提供的描述是完整且一次性给出的。然而在真实场景中,目击者的描述往往是部分的或模糊的。这一根本性假设与现实不符。

本文受福尔摩斯式询问启发:就像侦探通过针对性提问逐步从目击者那里获取更多细节一样,提出了一个交互式行人重识别框架,通过多轮对话迭代细化初始描述,从而更准确地识别目标人物。

方法详解

任务定义

交互式行人重识别是一个多轮对话和检索过程:

  • 目击者提供初始描述 \(T\)
  • 每轮 \(t\),系统生成问题 \(Q_t\) 引导目击者回忆更多细节
  • 目击者回答 \(A_t\),对话上下文 \(\mathcal{D}_t = \{T, (Q_1, A_1), \ldots, (Q_t, A_t)\}\) 用于检索目标人物

Interactive-PEDES 数据集

包含 54,749 张图像、13,051 个个体,平均每张图像 9 轮对话。构建分三步:

  1. 粗细粒度描述生成:使用 GPT-4o 生成粗粒度初始描述(模拟目击者印象)和细粒度描述(模拟目击者潜在记忆)
  2. 子描述分解:将细粒度描述分解为不重叠的子描述,每个聚焦一个独特属性
  3. 对话生成:生成三种类型问题——描述性问题(50%)、是/否问题(40%)、多选题(10%)

交互式 ReID 框架

框架包含三个组件:

  • Retriever(检索器):基于 CLIP 的双流网络,在共享跨模态空间中编码对话描述和人物图像 $\(p(I_i|\mathcal{D}_t) = \frac{\exp \text{sim}(z_t, f_i)}{\sum_j^m \exp \text{sim}(z_t, f_j)}\)$
  • Questioner(提问器):LLaVA-ReID,基于视觉和文本上下文生成判别性问题
  • Answerer(回答者):基于 Qwen2.5-7B-Instruct 的 LLM,模拟目击者回答

LLaVA-ReID:选择性多图像提问器

选择性视觉上下文

传统方法直接使用 top-k 或 k-means 选择候选图像,缺乏对细粒度差异的关注。LLaVA-ReID 设计了一个硬通过选择模型

  1. 用检索器获取 top-k 候选
  2. 将候选图像嵌入和对话嵌入输入浅层 Transformer 编码器:\(\mathbf{v} = \phi_s(f_c; z_t)\)
  3. 通过线性层预测选择权重:\(\mathbf{w} = \text{Softmax}(\phi_h(\mathbf{v}))\)
  4. 选择权重最高的 top-c 候选发送给 LMM

训练时使用 Gumbel-top-k 松弛实现可微分的随机采样策略。

前瞻性监督(Looking-Forward)

不同问题在不同检索状态下的信息增益不同。论文提出一步前瞻策略,动态选择最有信息量的问题:

\[Q_t^* = \underset{Q_i \in (\mathcal{S} \setminus \mathcal{Q}_{pre}^{t-1})}{\arg\max} \text{rank}(I_{gt}, \{T, A_1, \ldots, A_{t-1}, A_t^*\})\]

选择使目标人物检索排名提升最大的问题作为当前轮的监督信号,使用 NLL 损失训练:

\[\mathcal{L}_{\text{NLL}} = -\log p(Q_t^* | \mathcal{C}_{t-1}, \mathcal{D}_{t-1})\]

实验

Interactive-PEDES 主实验

方法 R3@1 R5@1 R5@5 BRI ↓
Initial 35.86 35.86 55.17 -
SimIRV 50.45 61.27 82.00 1.024
ChatIR 57.85 63.86 83.81 0.935
PlugIR 60.34 65.44 85.33 0.849
LLaVA-ReID 63.96 73.20 90.62 0.719

5 轮交互后 R@1 提升 37.34%(73.20 vs 35.86),比 PlugIR 高 7.76%。

迁移到传统 T-ReID

集成 LLaVA-ReID 后,IRRA 在 CUHK-PEDES 上 R@1 从 73.38 提升到 78.51,RDE 从 75.94 提升到 79.39,证明了方法的可迁移性。

消融实验

  • 去除选择性视觉上下文:R@1 下降约 3%
  • 去除前瞻性监督:R@1 从 73.20 下降到约 68%
  • 候选数量 c=4 为最优选择

亮点

  • 首次定义 Inter-ReID 任务:将静态的文本行人重识别扩展为交互式对话检索
  • 精心构建的数据集:Interactive-PEDES 包含三种问题类型,模拟真实询问场景
  • 创新的前瞻策略:动态选择信息增益最大的问题,避免了问题排列的组合爆炸
  • 强大的迁移能力:可作为即插即用模块提升现有 T-ReID 框架的性能

局限性

  • 目击者模拟使用 LLM 而非真人评估,可能与真实场景存在差距
  • 数据集中图像来源相对单一(CUHK-PEDES 和 ICFG-PEDES)
  • 每轮需要前向推理大型多模态模型,实时性可能受限
  • 前瞻策略需要预计算所有候选问题的检索排名,训练开销较大
  • 未讨论当目击者回答不准确或矛盾时系统的鲁棒性

评分

⭐⭐⭐⭐ (4/5)

论文在任务定义、数据集构建和方法设计上都展现了很强的创新性。将行人重识别从静态检索升级为交互式对话是一个自然且有价值的方向,实验结果令人信服。

相关论文