STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification¶
会议: AAAI 2026
arXiv: 2603.00695
代码: 无
领域: 3D视觉 / 多模态
关键词: 多模态ReID, 跨模态融合, 超图交互, 分割引导, token调制
一句话总结¶
STMI提出一个三组件的多模态目标重识别框架,通过SAM分割引导的特征调制(SFM)抑制背景噪声、语义Token重新分配(STR)提取紧凑表示、以及跨模态超图交互(CHI)捕获高阶语义关系,在RGBNT201等benchmark上取得了显著提升。
研究背景与动机¶
领域现状:多模态目标重识别(Multi-Modal ReID)利用不同模态(RGB、红外NIR、热红外TIR)的互补信息来检索特定目标,现有方法基于ViT提取各模态特征后进行融合。
现有痛点:(1)hard token过滤可能丢失判别性信息,简单融合策略不能有效利用跨模态互补性;(2)不同模态下的背景噪声表现形式不同,缺乏有效的前景/背景分离机制。
核心矛盾:如何在保留所有token信息的同时实现紧凑表示,并有效建模跨模态高阶语义关系。
本文目标:设计统一的多模态学习框架,同时解决背景抑制、信息压缩和跨模态高阶交互。
切入角度:利用SAM生成的mask做软性调制而非硬过滤;用可学习query token做自适应重分配;用超图建模多模态间的高阶关系。
核心 idea:SFM(前景增强)+ STR(表示压缩)+ CHI(多模态高阶交互)三个模块构建完整信息处理链路。
方法详解¶
整体框架¶
输入多模态图像,各模态通过ViT提取patch token。SFM模块利用SAM预生成的分割mask调制token注意力。STR模块通过可学习query token将调制后的token压缩为紧凑表示。CHI模块在所有模态的紧凑表示上构建统一超图,捕获高阶跨模态语义关系。
关键设计¶
-
Segmentation-Guided Feature Modulation (SFM):
- 功能:利用SAM分割mask增强前景表示、抑制背景噪声
- 核心思路:预先用SAM生成前景mask,将mask转化为可学习的注意力权重对ViT各层的token进行软性调制。与hard token过滤不同,SFM保留所有token但重新分配重要性权重
- 设计动机:硬过滤可能误删判别性前景token,软调制在保留信息完整性的同时有效降低背景干扰
-
Semantic Token Reallocation (STR):
- 功能:将变长的patch token压缩为固定数量的紧凑语义表示
- 核心思路:引入可学习查询token,通过cross-attention与调制后的patch token交互实现自适应语义重分配,查询token数量远小于patch token数量,不丢弃任何token——所有信息通过attention聚合到查询token中
- 设计动机:传统top-k选择不可避免地丢失信息,STR通过注意力将所有信息重分配到紧凑表示
-
Cross-Modal Hypergraph Interaction (CHI):
- 功能:建模所有模态间的高阶语义关系
- 核心思路:将各模态的紧凑表示视为超图节点,构建统一的跨模态超图。超边连接多个节点,捕获三元及更高阶的语义关联。通过超图卷积进行信息传播
- 设计动机:多模态信息间存在超越成对的高阶关系,超图能自然建模这种关系
损失函数 / 训练策略¶
采用ReID标准训练策略:ID分类损失(Cross-Entropy)+ 度量学习损失(Triplet Loss)。
实验关键数据¶
主实验¶
| 数据集 | 指标 | STMI | 前SOTA | 提升 |
|---|---|---|---|---|
| RGBNT201 | mAP | 最佳 | - | 显著超越所有基线 |
| RGBNT100 | mAP | 最佳 | - | 多模态融合优势明显 |
| MSVR310 | mAP | 最佳 | - | 超图交互有效 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| Full STMI | 最佳 | 三模块协同 |
| w/o SFM | 明显下降 | 背景干扰增加 |
| w/o STR | 下降 | token冗余降低判别性 |
| w/o CHI | 下降 | 缺少跨模态高阶交互 |
关键发现¶
- SFM模块贡献最大,验证了背景噪声是多模态ReID的主要瓶颈
- CHI超图交互相比普通图卷积有明显优势,高阶关系建模必要
- STR相比hard top-k选择保留了更多判别信息
亮点与洞察¶
- SAM作为通用前景提取器:利用SAM的零样本分割能力为ReID提供前景mask,可迁移到行人属性识别、车辆ReID等任务
- 超图 vs 普通图:超图能建模超越成对关系的高阶语义,在多模态场景中更有表达力
- 不丢token的压缩:STR的"重新分配而非丢弃"理念兼顾效率和信息完整性
局限与展望¶
- 依赖SAM预生成mask增加预处理开销
- 超图的构建和卷积增加计算复杂度
- 仅在RGB-NIR-TIR三模态上验证,其他模态组合效果未知
- SAM在低质量或极端场景下可能失效影响SFM效果
相关工作与启发¶
- vs TOP-ReID:TOP-ReID使用token pruning可能丢失信息,STMI的STR通过重分配避免信息丢失
- vs 传统多模态融合:简单拼接/相加无法捕获高阶跨模态关系,CHI更有效
- vs TransReID:多模态提供互补信息,STMI证明了结构化融合的优势
评分¶
- 新颖性: ⭐⭐⭐⭐ SAM+超图的组合新颖,三个模块各有创新
- 实验充分度: ⭐⭐⭐⭐ 三个benchmark上全面评估
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰
- 价值: ⭐⭐⭐⭐ 对多模态ReID领域有推动
相关论文¶
- [ECCV 2024] Explicitly Guided Information Interaction Network for Cross-modal Point Cloud Completion
- [AAAI 2026] Multi-Modal Assistance for Unsupervised Domain Adaptation on Point Cloud 3D Object Detection
- [CVPR 2026] Glove2Hand: Synthesizing Natural Hand-Object Interaction from Multi-Modal Sensing Gloves
- [AAAI 2026] MR-CoSMo: Visual-Text Memory Recall and Direct Cross-Modal Alignment Method for Query-Driven 3D Segmentation
- [CVPR 2026] CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration