Multi-Memory Matching for Unsupervised Visible-Infrared Person Re-Identification¶

会议: ECCV 2024
arXiv: 2401.06825
代码: GitHub
领域: 人体理解
关键词: 无监督行人重识别, 可见光-红外跨模态, 多记忆匹配, 伪标签, 聚类

一句话总结¶

提出 Multi-Memory Matching（MMM）框架用于无监督可见光-红外行人重识别，通过跨模态聚类（CMC）、多记忆学习与匹配（MMLM）和软聚类级对齐损失（SCA）三个模块建立可靠的跨模态对应关系，在 SYSU-MM01 上 Rank-1 达到 61.6%，RegDB 上 Rank-1 达到 89.7%。

研究背景与动机¶

无监督可见光-红外行人重识别（USL-VI-ReID）旨在不依赖标注的情况下在可见光和红外两种模态间进行行人检索，是实现 24 小时智能监控的关键技术。现有方法基于聚类生成伪标签并建立跨模态对应关系，但存在核心问题：

跨模态对应关系不可靠：作者引入 ARI（Adjusted Rand Index）指标评估发现，现有方法尽管在检索指标上表现不错，但其跨模态对应关系的质量很差（ARI 值低）

单记忆表达不足：现有方法用单一记忆（即单一聚类中心）代表一个身份，无法捕捉个体的多视角、多姿态等细微差异，导致跨模态匹配噪声大

悖论现象：具有重叠属性的不同行人因噪声对应关系而被进一步混淆，虽然可能在类间提高特征相似度带来指标提升，但实际精确检索能力受限

本文的核心洞察：多记忆比单记忆更能完整表达一个身份的多样性特征（如正面、背面），从而建立更可靠的跨模态对应关系。

方法详解¶

整体框架¶

MMM 采用 ResNet50（ImageNet 预训练）作为共享骨干网络提取 2048 维特征。整体流程为：(1) CMC 模块生成伪标签；(2) MMLM 模块通过多记忆匹配建立跨模态对应关系；(3) SCA 损失缩小模态差距并减轻噪声伪标签影响。

关键设计¶

跨模态聚类（CMC）：生成伪标签的基础模块
- 使用 DBSCAN 算法分别对可见光样本、红外样本以及两者混合样本进行聚类：\(Y^t = DBSCAN(F^t)\)
- 与现有方法不同，不仅进行模态内聚类（\(t=v\) 或 \(t=r\)），还进行模态间联合聚类（\(t=\{v,r\}\)），间接建立跨模态对应
- 为每个聚类计算三种记忆：可见光记忆 \(C_{V^p}\)、红外记忆 \(C_{R^p}\)、混合记忆 \(C_{VR^p}\)
- 基于 ClusterNCE 对比损失优化：\(L_{CMC} = L_V + L_R + L_{VR}\)
多记忆学习与匹配（MMLM）：核心创新，建立可靠跨模态对应
- 多记忆学习：将单一聚类进一步细分为 \(n\) 个子聚类（sub-cluster），每个子聚类的中心作为一个记忆。通过 K-Means 最小化子聚类内距离： \(\min_{F_{C_{V_i^p}}} \sum_{i=1}^{n} \|f^v - K_{C_{V_i^p}}\|_2^2\)
- 例如 Memory 1 记录正面特征，Memory 2 记录背面特征，更完整地表达个体
- 多记忆匹配：将跨模态匹配问题建模为加权二部图匹配。设计代价矩阵为多记忆间最近邻距离之和： \(M(K_{C_{V^p}}, K_{C_{R^{p'}}}) = \sum_{i=1}^{n} \min_{j \in \{1,...,n\}} \|K_{V_i^p} - K_{R_j^{p'}}\|_2\)
- 用匈牙利算法求解最优匹配 \(Q\)，将红外伪标签转移到可见光：\(Y^v := QY^r\)
软聚类级对齐损失（SCA）：缓解噪声伪标签影响并缩小模态差距
- 置信度估计：用双组分高斯混合模型（GMM）建模损失分布，通过后验概率计算每个样本的标签置信度 \(W^v\)
- 置信度加权记忆更新：用置信度加权更新各记忆，降低噪声样本的影响：\(C_{V^p} := \frac{1}{N_p} \sum_i f(V_i^p) W_{V_i^p}\)
- 模态内对齐（Intra）：将同一 ID 的样本向其置信度加权后的聚类中心对齐：\(L_{Intra} = \sum_p \sum_{f^v} \|f^v - C_{V^p}\|_2^2 + \sum_p \sum_{f^r} \|f^r - C_{R^p}\|_2^2\)
- 模态间对齐（Inter）：用 MMD²（Maximum Mean Discrepancy）度量同一 ID 在两个模态下的特征分布差异，最小化该差异实现软的多对多对齐： \(L_{Inter} = \frac{1}{P} \sum_p \frac{1}{2}[D(F_p^v, sg(F_p^r)) + D(F_p^r, sg(F_p^v))]\)
- 使用 stop-gradient 操作防止两个模态相互坍塌
- 总 SCA 损失：\(L_{SCA} = \lambda_{Intra} L_{Intra} + \lambda_{Inter} L_{Inter}\)

损失函数 / 训练策略¶

总损失：\(L_{overall} = L_{CMC} + L_{SCA}\)

骨干网络：ResNet50，ImageNet 预训练
训练 80 个 epoch，每步采样 8 个 ID，每个 ID 选 4 张可见光 + 4 张红外图像
图像尺寸 288×144，随机翻转和裁剪增强
SGD 优化器，momentum=0.9，weight decay=5e-4
Intra 损失从第 1 个 epoch 加入，Inter 损失从第 15 个 epoch 加入
温度系数 \(\tau=0.05\)，DBSCAN 参数 eps=0.6、min_samples=4
最优超参：\(n=4\)（记忆数），\(\lambda_{Intra}=0.5\)，\(\lambda_{Inter}=0.05\)

实验关键数据¶

主实验¶

SYSU-MM01 All Search & RegDB Visible2Thermal

方法	类型	SYSU R-1	SYSU mAP	RegDB R-1	RegDB mAP
ADCA	USL	45.5	42.7	67.2	64.1
ADCA+MMM	USL	49.7	44.7	77.8	70.9
GUR*	USL	61.0	57.0	73.9	70.2
PCLHD	USL	64.4	58.7	84.3	80.7
MMM	USL	61.6	57.9	89.7	80.5
MMM+PCLHD	USL	65.9	61.8	89.6	83.7
DPIS	Semi	58.4	55.6	62.3	53.2
AGW	Sup.	47.5	47.7	70.1	66.4

MMM 在无监督设置下超越多个半监督和有监督方法。在 RegDB 上相比 GUR 提升 Rank-1 +15.8%，mAP +10.3%。

消融实验¶

配置	SYSU R-1	SYSU mAP	Indoor R-1	Indoor mAP
Baseline (CMC only)	51.74	49.81	56.34	64.46
+ MMLM	55.15	52.21	58.76	65.47
+ MMLM + Intra	58.48	55.05	62.19	68.09
+ MMLM + Inter	57.26	53.81	60.26	66.66
+ MMLM + Intra + Inter	61.56	57.92	64.37	70.40

关键发现¶

MMLM 模块带来 Rank-1 +3.41%，验证了多记忆比单记忆更有效地建立跨模态对应
Intra 和 Inter 损失互补共同作用，完整 SCA 损失相比基线提升 Rank-1 +9.82%、mAP +8.11%
记忆数 \(n=4\) 为最优，说明过少不够表达多样性，过多引入噪声
可视化分析表明 MMM 的模态内距离均值下降、模态间距离均值增大，特征分布更判别
ARI 指标显示 MMM 的跨模态对应关系可靠性显著优于 GUR 等方法

亮点与洞察¶

发现重要悖论：揭示了现有 USL-VI-ReID 方法的跨模态对应关系虽然带来不错的检索结果，但实际上并不可靠的矛盾现象
多记忆思想：将单一聚类中心拆分为多个子聚类中心，更精细地描述身份的多样性，是对 Cluster-Contrast 范式的有效改进
GMM 置信度估计：利用损失分布建模来软化噪声伪标签的影响，比硬阈值过滤更优雅
方法的通用性：MMM 可作为插件增强其他方法（如 ADCA+MMM、MMM+PCLHD），验证了框架的广泛适用性

局限与展望¶

作者坦言与有监督方法仍有差距（如 DEEN Rank-1 74.7% vs MMM 61.6%），主要受限于缺少跨模态数据标注
多记忆的子聚类数 \(n\) 需手动设定，不同数据集/身份可能需要不同值
DBSCAN 聚类参数对结果敏感，需精心调节
可探索利用 CLIP 等视觉语言预训练模型引入语义先验来提升跨模态匹配质量
计算多记忆的匈牙利匹配在大规模场景下可能成为瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 多记忆匹配思路新颖，ARI 指标揭示了现有方法的盲区
实验充分度: ⭐⭐⭐⭐⭐ 两个标准数据集，三种设定（有监督/半监督/无监督）对比，消融到位
写作质量: ⭐⭐⭐⭐ 问题分析深入，悖论现象的观察很有价值
价值: ⭐⭐⭐⭐ 在无监督 VI-ReID 领域达到新 SOTA，框架可作为插件兼容其他方法