跳转至

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

会议: AAAI 2026
arXiv: 2603.00695
代码: 无
领域: 3D视觉 / 多模态
关键词: 多模态ReID, 跨模态融合, 超图交互, 分割引导, token调制

一句话总结

STMI提出一个三组件的多模态目标重识别框架,通过SAM分割引导的特征调制(SFM)抑制背景噪声、语义Token重新分配(STR)提取紧凑表示、以及跨模态超图交互(CHI)捕获高阶语义关系,在RGBNT201等benchmark上取得了显著提升。

研究背景与动机

领域现状:多模态目标重识别(Multi-Modal ReID)利用不同模态(RGB、红外NIR、热红外TIR)的互补信息来检索特定目标,现有方法基于ViT提取各模态特征后进行融合。

现有痛点:(1)hard token过滤可能丢失判别性信息,简单融合策略不能有效利用跨模态互补性;(2)不同模态下的背景噪声表现形式不同,缺乏有效的前景/背景分离机制。

核心矛盾:如何在保留所有token信息的同时实现紧凑表示,并有效建模跨模态高阶语义关系。

本文目标:设计统一的多模态学习框架,同时解决背景抑制、信息压缩和跨模态高阶交互。

切入角度:利用SAM生成的mask做软性调制而非硬过滤;用可学习query token做自适应重分配;用超图建模多模态间的高阶关系。

核心 idea:SFM(前景增强)+ STR(表示压缩)+ CHI(多模态高阶交互)三个模块构建完整信息处理链路。

方法详解

整体框架

输入多模态图像,各模态通过ViT提取patch token。SFM模块利用SAM预生成的分割mask调制token注意力。STR模块通过可学习query token将调制后的token压缩为紧凑表示。CHI模块在所有模态的紧凑表示上构建统一超图,捕获高阶跨模态语义关系。

关键设计

  1. Segmentation-Guided Feature Modulation (SFM):

    • 功能:利用SAM分割mask增强前景表示、抑制背景噪声
    • 核心思路:预先用SAM生成前景mask,将mask转化为可学习的注意力权重对ViT各层的token进行软性调制。与hard token过滤不同,SFM保留所有token但重新分配重要性权重
    • 设计动机:硬过滤可能误删判别性前景token,软调制在保留信息完整性的同时有效降低背景干扰
  2. Semantic Token Reallocation (STR):

    • 功能:将变长的patch token压缩为固定数量的紧凑语义表示
    • 核心思路:引入可学习查询token,通过cross-attention与调制后的patch token交互实现自适应语义重分配,查询token数量远小于patch token数量,不丢弃任何token——所有信息通过attention聚合到查询token中
    • 设计动机:传统top-k选择不可避免地丢失信息,STR通过注意力将所有信息重分配到紧凑表示
  3. Cross-Modal Hypergraph Interaction (CHI):

    • 功能:建模所有模态间的高阶语义关系
    • 核心思路:将各模态的紧凑表示视为超图节点,构建统一的跨模态超图。超边连接多个节点,捕获三元及更高阶的语义关联。通过超图卷积进行信息传播
    • 设计动机:多模态信息间存在超越成对的高阶关系,超图能自然建模这种关系

损失函数 / 训练策略

采用ReID标准训练策略:ID分类损失(Cross-Entropy)+ 度量学习损失(Triplet Loss)。

实验关键数据

主实验

数据集 指标 STMI 前SOTA 提升
RGBNT201 mAP 最佳 - 显著超越所有基线
RGBNT100 mAP 最佳 - 多模态融合优势明显
MSVR310 mAP 最佳 - 超图交互有效

消融实验

配置 效果 说明
Full STMI 最佳 三模块协同
w/o SFM 明显下降 背景干扰增加
w/o STR 下降 token冗余降低判别性
w/o CHI 下降 缺少跨模态高阶交互

关键发现

  • SFM模块贡献最大,验证了背景噪声是多模态ReID的主要瓶颈
  • CHI超图交互相比普通图卷积有明显优势,高阶关系建模必要
  • STR相比hard top-k选择保留了更多判别信息

亮点与洞察

  • SAM作为通用前景提取器:利用SAM的零样本分割能力为ReID提供前景mask,可迁移到行人属性识别、车辆ReID等任务
  • 超图 vs 普通图:超图能建模超越成对关系的高阶语义,在多模态场景中更有表达力
  • 不丢token的压缩:STR的"重新分配而非丢弃"理念兼顾效率和信息完整性

局限与展望

  • 依赖SAM预生成mask增加预处理开销
  • 超图的构建和卷积增加计算复杂度
  • 仅在RGB-NIR-TIR三模态上验证,其他模态组合效果未知
  • SAM在低质量或极端场景下可能失效影响SFM效果

相关工作与启发

  • vs TOP-ReID:TOP-ReID使用token pruning可能丢失信息,STMI的STR通过重分配避免信息丢失
  • vs 传统多模态融合:简单拼接/相加无法捕获高阶跨模态关系,CHI更有效
  • vs TransReID:多模态提供互补信息,STMI证明了结构化融合的优势

评分

  • 新颖性: ⭐⭐⭐⭐ SAM+超图的组合新颖,三个模块各有创新
  • 实验充分度: ⭐⭐⭐⭐ 三个benchmark上全面评估
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰
  • 价值: ⭐⭐⭐⭐ 对多模态ReID领域有推动

相关论文