Decoupling Common and Unique Representations for Multimodal Self-supervised Learning¶

会议: ECCV2024 arXiv: 2309.05300 代码: zhu-xlab/DeCUR 领域: multimodal_vlm 关键词: 多模态自监督学习, 表征解耦, 冗余消减, Barlow Twins, 可变形注意力

一句话总结¶

提出 DeCUR，在多模态自监督学习中将嵌入维度显式拆分为跨模态共有 (common) 和模态独有 (unique) 两部分，通过互相关矩阵分别驱动对齐与去相关，同时引入模态内训练保证独有维度学到有意义信息，在 SAR-光学、RGB-DEM、RGB-Depth 三类多模态场景上均优于 Barlow Twins / CLIP 等基线。

研究背景与动机¶

现状¶

多模态自监督学习正迅速发展，主流做法（SimCLR-cross、CLIP、ImageBind 等）将不同模态视为同一场景的增强视图，在共同潜在空间中进行跨模态对比学习。

痛点¶

只学共有、忽略独有：现有方法将所有嵌入维度押注于跨模态共有特征，强行把可能正交的模态独有信息塞入同一表征空间，限制了模型对各模态的深层理解。
缺少模态内训练：跨模态对齐无法保证单模态内部的表征质量；当某一模态缺失（如光学图像被云遮挡）时，单模态性能大幅下降。
负样本依赖：SimCLR/CLIP 类方法需要大量负样本，训练开销大且对 batch size 敏感。

核心矛盾¶

跨模态对齐要求模态间相似，但每种模态天然拥有其他模态无法提供的独有信息（如 SAR 能穿透云层、Depth 包含几何结构），两者诉求互相冲突。

切入角度¶

从 Barlow Twins 的冗余消减框架出发，自然地将嵌入维度切分为共有/独有两组，分别施加不同的优化目标，无需负样本即可同时对齐共有信息并去耦独有信息。

核心 Idea¶

将嵌入维度显式拆分为 K_c（共有）+ K_u（独有），跨模态共有维度的互相关矩阵→单位阵（对齐），独有维度的互相关矩阵→零矩阵（去耦），再加模态内 Barlow Twins 训练避免独有维度坍缩。

方法详解¶

整体框架¶

DeCUR 为双编码器-双投影器的 joint embedding 结构：

两个模态各有独立的 Encoder + MLP Projector（3层，输出维度 8192）
每个模态生成两组增强视图的嵌入
嵌入维度按比例分为 common 和 unique 两部分
跨模态：common 维度互相关→单位阵；unique 维度互相关→零矩阵
模态内：全维度的 Barlow Twins 训练（每个模态各做一次）
（可选）在 ConvNet 编码器最后两个 stage 添加带残差连接的可变形注意力（RDA）

关键设计¶

组件	设计细节	作用
嵌入拆分	K = K_c + K_u，SAR-optical 共有比例 87.5%，RGB-DEM/Depth 75%	控制共有/独有的容量分配
跨模态共有损失 L_com	互相关矩阵对角→1，非对角→0（同 Barlow Twins）	跨模态对齐 + 去冗余
跨模态独有损失 L_uni	互相关矩阵全部→0（包括对角元素）	强制模态间独有维度去相关
模态内损失 L_M1 / L_M2	同一模态两增强视图的全维度 Barlow Twins	避免独有维度坍缩，增强单模态表征
可变形注意力 (RDA)	DAT++ 在 ResNet-50 最后两阶段 + 残差连接	数据驱动地聚焦模态关键区域
批归一化	嵌入沿 batch 维度做均值中心化	稳定互相关矩阵计算

损失函数/训练策略¶

总损失：

\[\mathcal{L} = \mathcal{L}_{com} + \mathcal{L}_{uni} + \mathcal{L}_{M1} + \mathcal{L}_{M2}\]

各项通过权衡系数 λ 平衡不变性项与冗余消减项，默认均为 0.0051。

训练策略：

参数	SAR-Optical / RGB-DEM	RGB-Depth
Epochs	100	200
Batch size	256	128
GPU	4× NVIDIA A100	4× NVIDIA A100
Backbone	ResNet-50	ResNet-50 / MiT-B2/B5
投影器维度	8192	8192
训练时长	SAR-opt 35h / GeoNRW 6h	SUN-RGBD 6h

实验关键数据¶

主实验¶

SAR-Optical 场景分类 (BigEarthNet-MM, mAP)

方法	多模态 1%	多模态 100%	SAR-only 1%	SAR-only 100%
SimCLR-cross	77.4/78.7	82.8/89.6	68.1/70.4	71.7/83.7
CLIP	77.4/78.7	82.8/89.6	68.0/70.2	71.7/83.4
Barlow Twins	78.7/80.3	83.2/89.5	72.3/73.7	77.8/83.6
DeCUR	79.8/81.5	86.2/89.8	74.4/76.0	79.5/84.0

格式：linear-probing / fine-tuning

RGB-DEM 语义分割 (GeoNRW, mIoU)

方法	多模态 1% frozen/FT	多模态 100% frozen/FT	RGB-only 1% frozen/FT	RGB-only 100% frozen/FT
SimCLR-cross	23.0/30.2	35.2/47.3	20.1/25.9	29.6/42.5
Barlow Twins	31.2/33.6	43.0/48.4	29.4/33.4	38.0/45.9
DeCUR	34.7/36.6	44.7/48.9	32.2/35.7	40.8/46.7

RGB-Depth 语义分割 (SUN-RGBD / NYUDv2, mIoU)

模型	SUN-RGBD mIoU	NYUDv2 mIoU
FCN (CLIP)	30.5	30.4
FCN (DeCUR)	34.5 (+4.0)	31.2 (+0.8)
CMX-B2	49.7	-
CMX-B2 (DeCUR)	50.6 (+0.9)	-
CMX-B5	-	56.9
CMX-B5 (DeCUR)	-	57.3 (+0.4)

消融实验¶

损失项消融 (1% labels fine-tuning)

配置	SAR-optical (mAP)	RGB-DEM (mIoU)
DeCUR (完整)	81.7	36.9
无模态内 & 无解耦 (纯跨模态 BT)	80.3	33.6
无模态内训练 (仅解耦)	80.1	34.3
无解耦 (仅模态内)	81.1	35.2

可变形注意力消融 (frozen encoder)

配置	BigEarthNet-MM 1%/100%	GeoNRW-MM 1%/100%
无 DA	79.4/85.4	34.9/43.9
有 DA（无残差）	−0.1/−	−0.6/−
有 RDA（带残差）	+0.4/+0.8	−0.2/+0.8

关键发现¶

解耦+模态内缺一不可：仅做解耦但无模态内训练会导致独有维度坍缩为随机值，下游效果不稳定。
共有比例因模态而异：SAR-optical 最佳共有维度 87.5%，RGB-DEM/Depth 75%，与领域直觉一致（DEM 独有信息更多）。
共有比例对嵌入维度鲁棒：512 或 8192 维下最佳比例一致。
残差连接对可变形注意力至关重要：无残差的 DA 在少标签场景反而降低性能。
单模态缺失场景优势显著：SAR-only 比 BT-SAR 提升 2.0−3.2%，证明联合预训练帮助单模态理解。

亮点与洞察¶

极简但有效的设计：仅需在 Barlow Twins 基础上切分维度并修改一行损失目标（对角→0），零外部依赖。
可解释性分析出色：GradCAM/Integrated Gradients 证实独有维度的空间显著性确实更正交，光谱显著性与领域知识吻合（近红外重要、水汽/卷云波段不重要）。
可变形注意力可视化：光学模型学会忽略云层，SAR 模型反而关注云区——因为雷达能穿透云层。
跨架构泛化性好：ResNet-50 和 MiT-B2/B5 均获提升，且预训练权重可直接迁移到 SOTA 监督模型 CMX。
嵌入空间稀疏性：解耦至 50% 独有维度时性能无显著下降，暗示共有空间存在大量冗余。

局限性/可改进方向¶

全局固定比例：整个数据集共享同一 common/unique 比例，未考虑不同样本间模态独有信息量的差异（如某些场景云层多、独有信息比例应更高）。
需要网格搜索最佳比例：大数据集上的搜索成本高，虽然 ~80% 通常可行，但缺乏自适应策略。
仅限双模态：当前框架未扩展到三种及以上模态的联合解耦。
下游任务有限：主要验证分类和语义分割，缺少检测/生成等任务的验证。
未与 MAE 类生成式方法对比：单模态 MAE / MultiMAE 等未纳入基线。

评分¶

⭐⭐⭐⭐ 新颖性：将 Barlow Twins 的维度拆分为 common/unique 并分别优化是自然但巧妙的扩展，idea 清晰优雅
⭐⭐⭐⭐⭐ 实验充分度：三类多模态场景 + 多标签/多架构/模态缺失/消融/可解释性，覆盖非常全面
⭐⭐⭐⭐ 写作质量：结构清晰，可视化丰富（t-SNE、GradCAM、光谱显著性、可变形点），易于理解
⭐⭐⭐⭐ 实用价值：方法简洁易复现，对遥感/RGBD 社区有直接应用价值；但对齐NLP/语言-图像等主流多模态场景的验证缺失

相关方法	关系
Barlow Twins	DeCUR 的直接上游，DeCUR = 多模态版本 + 维度解耦
VICReg	同属冗余消减类，DeCUR 在所有场景上均优于 VICReg
CLIP / SimCLR-cross	跨模态对比学习基线，依赖负样本，DeCUR 无需负样本
FactorCL	同时期分解共有/独有的工作，但通过模态特定增强实现，DeCUR 直接在嵌入维度上操作更简洁
ImageBind	多模态联合嵌入，DeCUR 解耦思路可扩展到 ImageBind 的共享空间
CMX	DeCUR 预训练权重可直接提升 CMX 的 RGBD 分割性能