跳转至

Chat-based Person Retrieval via Dialogue-Refined Cross-Modal Alignment

会议: CVPR 2025
arXiv: 无
代码: 无
领域: NLP理解 / 跨模态检索
关键词: 行人检索, 跨模态对齐, 对话交互, 属性精炼, 数据增强

一句话总结

本文提出基于对话的行人检索(ChatPR)新范式,构建了首个对话-图像配对数据集ChatPedes,并设计了DiaNA框架通过自适应属性精炼器实现对话与图像间的细粒度跨模态对齐,显著优于传统单句文本检索方法。

研究背景与动机

领域现状:传统的基于文本的行人检索(Text-based Person Retrieval, TPR)依赖用户提供一段描述性文本作为查询,系统根据该文本从图像库中检索目标行人。这类方法假设用户能在一次输入中完整表达搜索意图。

现有痛点:在实际应用场景中,用户很难一次性提供完整且准确的描述。比如用户可能记不清目标人物穿什么颜色的衣服,或者对某些属性描述模糊。单次查询的信息不完整性严重限制了检索准确率。此外,用户描述的语义粒度参差不齐,有些描述可能过于笼统("穿深色衣服的人"),无法有效区分不同的候选行人。

核心矛盾:单次文本查询的信息容量有限,无法完全捕捉用户的搜索意图,但现有TPR方法都基于这一"一次性完美描述"的不合理假设。

本文目标 (1) 如何构建一个对话式行人检索系统,允许用户通过多轮交互逐步完善查询?(2) 缺乏对话-图像配对数据集,如何高效构建?(3) 如何在对话和图像两种模态之间建立有效的跨模态对齐?

切入角度:作者观察到人类在现实中寻找某人时往往通过多轮对话逐步缩小范围("穿什么颜色?戴帽子吗?背包什么样?"),因此将行人检索从单次查询升级为多轮对话模式,并利用大语言模型自动生成对话数据来解决数据匮乏问题。

核心 idea:用多轮对话代替单次文本查询进行行人检索,通过自适应属性精炼器将对话信息和视觉信息瓶颈化后进行细粒度跨模态对齐。

方法详解

整体框架

DiaNA(Dialogue-refined Cross-modal Alignment)框架接收多轮对话作为查询输入,从图像库中检索匹配的行人图像。整体pipeline为:输入多轮对话文本 → 对话编码器提取多轮语义特征 → 自适应对话属性精炼器提取关键属性 → 与视觉端通过自适应视觉属性精炼器提取的属性对齐 → 细粒度跨模态匹配 → 输出检索结果。

关键设计

  1. ChatPedes数据集构建:

    • 功能:构建首个面向对话式行人检索的大规模数据集
    • 核心思路:利用大语言模型(LLM)自动生成问答对话。给定行人图像的属性标注,LLM生成关于该行人外观的问题序列,并模拟用户根据ground truth属性给出回答。每个对话包含多轮问答,逐步揭示行人的细节特征(如衣着颜色、配饰、身体特征等)
    • 设计动机:手动标注对话-图像配对数据成本极高且难以规模化,利用LLM可以高效地自动化问题生成和回答模拟过程
  2. 自适应属性精炼器(Adaptive Attribute Refiner):

    • 功能:将对话和图像信息分别瓶颈化为关键属性表示,便于细粒度对齐
    • 核心思路:设计了两个并行的自适应属性精炼器——对话端精炼器和视觉端精炼器。对话端从多轮对话中提取并融合各轮提及的属性信息(如"红色上衣"、"黑色裤子"、"背双肩包"),将冗长的对话压缩为结构化的属性瓶颈表示。视觉端对图像特征执行类似操作,提取与属性相关的视觉特征。两端的瓶颈表示在统一的属性空间中进行细粒度匹配
    • 设计动机:对话和图像的原始特征维度和语义空间差异巨大,直接对齐效果差。通过属性瓶颈将两种模态映射到共享的属性空间,既降低了对齐难度,又能捕捉细粒度的属性匹配关系
  3. 随机轮次保留(Random Round Retaining)数据增强:

    • 功能:提升模型对不同长度对话的泛化能力
    • 核心思路:在训练时随机保留对话中的若干轮次(而非总是使用完整对话),模拟实际场景中用户可能只进行了部分轮次交互就进行检索的情况。这样模型不仅能处理完整对话,还能在对话早期阶段就给出有效检索结果
    • 设计动机:实际使用中用户可能在任意轮次后希望获取检索结果,模型需要在不同对话长度下都保持鲁棒性

损失函数 / 训练策略

采用对比学习框架进行训练,使匹配的对话-图像对在特征空间中距离接近,不匹配的远离。结合全局对比损失和细粒度属性对齐损失,确保模型既能捕捉整体语义匹配度,又能关注局部属性的一致性。随机轮次保留策略作为训练时的数据增强技术,在每个epoch中动态改变保留的对话轮次数。

实验关键数据

主实验

方法 数据类型 Rank-1 Rank-5 Rank-10 mAP
传统TPR (单句) 单句文本 基线 基线 基线 基线
DiaNA (1轮) 1轮对话 优于TPR - - -
DiaNA (3轮) 3轮对话 显著优于TPR - - -
DiaNA (完整) 完整对话 最优 最优 最优 最优

论文表明DiaNA在各个对话轮次下都显著优于现有TPR方法,随着对话轮次增加检索准确率持续提升。

消融实验

组件 Rank-1 变化
去除对话属性精炼器 显著下降
去除视觉属性精炼器 下降
去除随机轮次保留 短对话场景下降明显
完整DiaNA 最优

关键发现

  • 多轮对话检索范式显著优于传统单句查询,即便只用1-2轮对话也能获得明显提升
  • 自适应属性精炼器是跨模态对齐的关键组件,将信息瓶颈化到属性层面显著提高了对齐效率
  • 随机轮次保留策略对模型的鲁棒性至关重要,特别是在对话不完整的场景下

亮点与洞察

  • 范式创新:将行人检索从静态的单次查询升级为动态的对话交互模式,更符合人类的实际搜索行为
  • 数据构建巧妙:利用LLM自动化生成对话数据,解决了新任务缺乏标注数据的冷启动问题
  • 属性瓶颈设计:通过将对话和图像都映射到属性空间来实现跨模态对齐,比直接在原始特征空间对齐更高效且可解释
  • 渐进式精炼:随着对话轮次增加,检索结果逐步精确,符合信息逐步累积的直觉

局限与展望

  • ChatPedes数据集由LLM自动生成,对话的自然度和多样性可能不如真实人类对话
  • 当前框架假设用户回答是准确的,没有考虑用户记忆错误或描述模糊的情况
  • 未探索主动提问策略——系统应该学会在不同阶段提出最有区分力的问题来加速检索
  • 可以考虑引入强化学习优化对话策略,使系统能以最少轮次达到最高检索准确率
  • 仅在行人检索任务上验证,可以扩展到更通用的基于对话的图像检索场景

相关工作与启发

  • IRRA、LGUR等TPR方法:现有最强的单句文本行人检索方法,本文的实验表明对话范式显著优于这些方法
  • 视觉对话(Visual Dialog):虽然也涉及图像和对话的交互,但目标是回答关于图像的问题,而非用对话检索图像
  • 启发:对话式检索范式可以推广到其他细粒度视觉检索任务,如商品搜索、车辆检索等

评分

  • 新颖性: ⭐⭐⭐⭐(提出了全新的ChatPR范式,问题定义有创新性)
  • 实验充分度: ⭐⭐⭐(实验设置合理但数据集较单一)
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐(新范式有广泛推广潜力)

相关论文