跳转至

Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

会议: ECCV2024 arXiv: 2309.05300 代码: zhu-xlab/DeCUR 领域: multimodal_vlm 关键词: 多模态自监督学习, 表征解耦, 冗余消减, Barlow Twins, 可变形注意力

一句话总结

提出 DeCUR,在多模态自监督学习中将嵌入维度显式拆分为跨模态共有 (common) 和模态独有 (unique) 两部分,通过互相关矩阵分别驱动对齐与去相关,同时引入模态内训练保证独有维度学到有意义信息,在 SAR-光学、RGB-DEM、RGB-Depth 三类多模态场景上均优于 Barlow Twins / CLIP 等基线。

研究背景与动机

现状

多模态自监督学习正迅速发展,主流做法(SimCLR-cross、CLIP、ImageBind 等)将不同模态视为同一场景的增强视图,在共同潜在空间中进行跨模态对比学习。

痛点

  1. 只学共有、忽略独有:现有方法将所有嵌入维度押注于跨模态共有特征,强行把可能正交的模态独有信息塞入同一表征空间,限制了模型对各模态的深层理解。
  2. 缺少模态内训练:跨模态对齐无法保证单模态内部的表征质量;当某一模态缺失(如光学图像被云遮挡)时,单模态性能大幅下降。
  3. 负样本依赖:SimCLR/CLIP 类方法需要大量负样本,训练开销大且对 batch size 敏感。

核心矛盾

跨模态对齐要求模态间相似,但每种模态天然拥有其他模态无法提供的独有信息(如 SAR 能穿透云层、Depth 包含几何结构),两者诉求互相冲突。

切入角度

从 Barlow Twins 的冗余消减框架出发,自然地将嵌入维度切分为共有/独有两组,分别施加不同的优化目标,无需负样本即可同时对齐共有信息并去耦独有信息。

核心 Idea

将嵌入维度显式拆分为 K_c(共有)+ K_u(独有),跨模态共有维度的互相关矩阵→单位阵(对齐),独有维度的互相关矩阵→零矩阵(去耦),再加模态内 Barlow Twins 训练避免独有维度坍缩。

方法详解

整体框架

DeCUR 为双编码器-双投影器的 joint embedding 结构:

  1. 两个模态各有独立的 Encoder + MLP Projector(3层,输出维度 8192)
  2. 每个模态生成两组增强视图的嵌入
  3. 嵌入维度按比例分为 commonunique 两部分
  4. 跨模态:common 维度互相关→单位阵;unique 维度互相关→零矩阵
  5. 模态内:全维度的 Barlow Twins 训练(每个模态各做一次)
  6. (可选)在 ConvNet 编码器最后两个 stage 添加带残差连接的可变形注意力(RDA)

关键设计

组件 设计细节 作用
嵌入拆分 K = K_c + K_u,SAR-optical 共有比例 87.5%,RGB-DEM/Depth 75% 控制共有/独有的容量分配
跨模态共有损失 L_com 互相关矩阵对角→1,非对角→0(同 Barlow Twins) 跨模态对齐 + 去冗余
跨模态独有损失 L_uni 互相关矩阵全部→0(包括对角元素) 强制模态间独有维度去相关
模态内损失 L_M1 / L_M2 同一模态两增强视图的全维度 Barlow Twins 避免独有维度坍缩,增强单模态表征
可变形注意力 (RDA) DAT++ 在 ResNet-50 最后两阶段 + 残差连接 数据驱动地聚焦模态关键区域
批归一化 嵌入沿 batch 维度做均值中心化 稳定互相关矩阵计算

损失函数/训练策略

总损失

\[\mathcal{L} = \mathcal{L}_{com} + \mathcal{L}_{uni} + \mathcal{L}_{M1} + \mathcal{L}_{M2}\]

各项通过权衡系数 λ 平衡不变性项与冗余消减项,默认均为 0.0051。

训练策略

参数 SAR-Optical / RGB-DEM RGB-Depth
Epochs 100 200
Batch size 256 128
GPU 4× NVIDIA A100 4× NVIDIA A100
Backbone ResNet-50 ResNet-50 / MiT-B2/B5
投影器维度 8192 8192
训练时长 SAR-opt 35h / GeoNRW 6h SUN-RGBD 6h

实验关键数据

主实验

SAR-Optical 场景分类 (BigEarthNet-MM, mAP)

方法 多模态 1% 多模态 100% SAR-only 1% SAR-only 100%
SimCLR-cross 77.4/78.7 82.8/89.6 68.1/70.4 71.7/83.7
CLIP 77.4/78.7 82.8/89.6 68.0/70.2 71.7/83.4
Barlow Twins 78.7/80.3 83.2/89.5 72.3/73.7 77.8/83.6
DeCUR 79.8/81.5 86.2/89.8 74.4/76.0 79.5/84.0

格式:linear-probing / fine-tuning

RGB-DEM 语义分割 (GeoNRW, mIoU)

方法 多模态 1% frozen/FT 多模态 100% frozen/FT RGB-only 1% frozen/FT RGB-only 100% frozen/FT
SimCLR-cross 23.0/30.2 35.2/47.3 20.1/25.9 29.6/42.5
Barlow Twins 31.2/33.6 43.0/48.4 29.4/33.4 38.0/45.9
DeCUR 34.7/36.6 44.7/48.9 32.2/35.7 40.8/46.7

RGB-Depth 语义分割 (SUN-RGBD / NYUDv2, mIoU)

模型 SUN-RGBD mIoU NYUDv2 mIoU
FCN (CLIP) 30.5 30.4
FCN (DeCUR) 34.5 (+4.0) 31.2 (+0.8)
CMX-B2 49.7 -
CMX-B2 (DeCUR) 50.6 (+0.9) -
CMX-B5 - 56.9
CMX-B5 (DeCUR) - 57.3 (+0.4)

消融实验

损失项消融 (1% labels fine-tuning)

配置 SAR-optical (mAP) RGB-DEM (mIoU)
DeCUR (完整) 81.7 36.9
无模态内 & 无解耦 (纯跨模态 BT) 80.3 33.6
无模态内训练 (仅解耦) 80.1 34.3
无解耦 (仅模态内) 81.1 35.2

可变形注意力消融 (frozen encoder)

配置 BigEarthNet-MM 1%/100% GeoNRW-MM 1%/100%
无 DA 79.4/85.4 34.9/43.9
有 DA(无残差) −0.1/− −0.6/−
有 RDA(带残差) +0.4/+0.8 −0.2/+0.8

关键发现

  1. 解耦+模态内缺一不可:仅做解耦但无模态内训练会导致独有维度坍缩为随机值,下游效果不稳定。
  2. 共有比例因模态而异:SAR-optical 最佳共有维度 87.5%,RGB-DEM/Depth 75%,与领域直觉一致(DEM 独有信息更多)。
  3. 共有比例对嵌入维度鲁棒:512 或 8192 维下最佳比例一致。
  4. 残差连接对可变形注意力至关重要:无残差的 DA 在少标签场景反而降低性能。
  5. 单模态缺失场景优势显著:SAR-only 比 BT-SAR 提升 2.0−3.2%,证明联合预训练帮助单模态理解。

亮点与洞察

  1. 极简但有效的设计:仅需在 Barlow Twins 基础上切分维度并修改一行损失目标(对角→0),零外部依赖。
  2. 可解释性分析出色:GradCAM/Integrated Gradients 证实独有维度的空间显著性确实更正交,光谱显著性与领域知识吻合(近红外重要、水汽/卷云波段不重要)。
  3. 可变形注意力可视化:光学模型学会忽略云层,SAR 模型反而关注云区——因为雷达能穿透云层。
  4. 跨架构泛化性好:ResNet-50 和 MiT-B2/B5 均获提升,且预训练权重可直接迁移到 SOTA 监督模型 CMX。
  5. 嵌入空间稀疏性:解耦至 50% 独有维度时性能无显著下降,暗示共有空间存在大量冗余。

局限性/可改进方向

  1. 全局固定比例:整个数据集共享同一 common/unique 比例,未考虑不同样本间模态独有信息量的差异(如某些场景云层多、独有信息比例应更高)。
  2. 需要网格搜索最佳比例:大数据集上的搜索成本高,虽然 ~80% 通常可行,但缺乏自适应策略。
  3. 仅限双模态:当前框架未扩展到三种及以上模态的联合解耦。
  4. 下游任务有限:主要验证分类和语义分割,缺少检测/生成等任务的验证。
  5. 未与 MAE 类生成式方法对比:单模态 MAE / MultiMAE 等未纳入基线。

相关工作与启发

相关方法 关系
Barlow Twins DeCUR 的直接上游,DeCUR = 多模态版本 + 维度解耦
VICReg 同属冗余消减类,DeCUR 在所有场景上均优于 VICReg
CLIP / SimCLR-cross 跨模态对比学习基线,依赖负样本,DeCUR 无需负样本
FactorCL 同时期分解共有/独有的工作,但通过模态特定增强实现,DeCUR 直接在嵌入维度上操作更简洁
ImageBind 多模态联合嵌入,DeCUR 解耦思路可扩展到 ImageBind 的共享空间
CMX DeCUR 预训练权重可直接提升 CMX 的 RGBD 分割性能

启发:解耦思路可推广到任意联合嵌入框架——在共享空间中预留一部分维度给模态独有信息,几乎不增加复杂度。自适应的 common/unique 比例(per-sample 或 per-region)是明显的改进方向。

评分

  • ⭐⭐⭐⭐ 新颖性:将 Barlow Twins 的维度拆分为 common/unique 并分别优化是自然但巧妙的扩展,idea 清晰优雅
  • ⭐⭐⭐⭐⭐ 实验充分度:三类多模态场景 + 多标签/多架构/模态缺失/消融/可解释性,覆盖非常全面
  • ⭐⭐⭐⭐ 写作质量:结构清晰,可视化丰富(t-SNE、GradCAM、光谱显著性、可变形点),易于理解
  • ⭐⭐⭐⭐ 实用价值:方法简洁易复现,对遥感/RGBD 社区有直接应用价值;但对齐NLP/语言-图像等主流多模态场景的验证缺失