STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification¶

会议: AAAI 2026
arXiv: 2603.00695
代码: 无
领域: 3D视觉 / 多模态
关键词: 多模态ReID, 跨模态融合, 超图交互, 分割引导, token调制

一句话总结¶

STMI提出一个三组件的多模态目标重识别框架，通过SAM分割引导的特征调制（SFM）抑制背景噪声、语义Token重新分配（STR）提取紧凑表示、以及跨模态超图交互（CHI）捕获高阶语义关系，在RGBNT201等benchmark上取得了显著提升。

领域现状：多模态目标重识别（Multi-Modal ReID）利用不同模态（RGB、红外NIR、热红外TIR）的互补信息来检索特定目标，现有方法基于ViT提取各模态特征后进行融合。

现有痛点：（1）hard token过滤可能丢失判别性信息，简单融合策略不能有效利用跨模态互补性；（2）不同模态下的背景噪声表现形式不同，缺乏有效的前景/背景分离机制。

核心矛盾：如何在保留所有token信息的同时实现紧凑表示，并有效建模跨模态高阶语义关系。

本文目标：设计统一的多模态学习框架，同时解决背景抑制、信息压缩和跨模态高阶交互。

切入角度：利用SAM生成的mask做软性调制而非硬过滤；用可学习query token做自适应重分配；用超图建模多模态间的高阶关系。

核心 idea：SFM（前景增强）+ STR（表示压缩）+ CHI（多模态高阶交互）三个模块构建完整信息处理链路。

输入多模态图像，各模态通过ViT提取patch token。SFM模块利用SAM预生成的分割mask调制token注意力。STR模块通过可学习query token将调制后的token压缩为紧凑表示。CHI模块在所有模态的紧凑表示上构建统一超图，捕获高阶跨模态语义关系。

Segmentation-Guided Feature Modulation (SFM):
- 功能：利用SAM分割mask增强前景表示、抑制背景噪声
- 核心思路：预先用SAM生成前景mask，将mask转化为可学习的注意力权重对ViT各层的token进行软性调制。与hard token过滤不同，SFM保留所有token但重新分配重要性权重
- 设计动机：硬过滤可能误删判别性前景token，软调制在保留信息完整性的同时有效降低背景干扰
Semantic Token Reallocation (STR):
- 功能：将变长的patch token压缩为固定数量的紧凑语义表示
- 核心思路：引入可学习查询token，通过cross-attention与调制后的patch token交互实现自适应语义重分配，查询token数量远小于patch token数量，不丢弃任何token——所有信息通过attention聚合到查询token中
- 设计动机：传统top-k选择不可避免地丢失信息，STR通过注意力将所有信息重分配到紧凑表示
Cross-Modal Hypergraph Interaction (CHI):
- 功能：建模所有模态间的高阶语义关系
- 核心思路：将各模态的紧凑表示视为超图节点，构建统一的跨模态超图。超边连接多个节点，捕获三元及更高阶的语义关联。通过超图卷积进行信息传播
- 设计动机：多模态信息间存在超越成对的高阶关系，超图能自然建模这种关系

采用ReID标准训练策略：ID分类损失（Cross-Entropy）+ 度量学习损失（Triplet Loss）。

数据集	指标	STMI	前SOTA	提升
RGBNT201	mAP	最佳	-	显著超越所有基线
RGBNT100	mAP	最佳	-	多模态融合优势明显
MSVR310	mAP	最佳	-	超图交互有效