Decoupling Common and Unique Representations for Multimodal Self-supervised Learning¶
会议: ECCV2024 arXiv: 2309.05300 代码: zhu-xlab/DeCUR 领域: multimodal_vlm 关键词: 多模态自监督学习, 表征解耦, 冗余消减, Barlow Twins, 可变形注意力
一句话总结¶
提出 DeCUR,在多模态自监督学习中将嵌入维度显式拆分为跨模态共有 (common) 和模态独有 (unique) 两部分,通过互相关矩阵分别驱动对齐与去相关,同时引入模态内训练保证独有维度学到有意义信息,在 SAR-光学、RGB-DEM、RGB-Depth 三类多模态场景上均优于 Barlow Twins / CLIP 等基线。
研究背景与动机¶
现状¶
多模态自监督学习正迅速发展,主流做法(SimCLR-cross、CLIP、ImageBind 等)将不同模态视为同一场景的增强视图,在共同潜在空间中进行跨模态对比学习。
痛点¶
- 只学共有、忽略独有:现有方法将所有嵌入维度押注于跨模态共有特征,强行把可能正交的模态独有信息塞入同一表征空间,限制了模型对各模态的深层理解。
- 缺少模态内训练:跨模态对齐无法保证单模态内部的表征质量;当某一模态缺失(如光学图像被云遮挡)时,单模态性能大幅下降。
- 负样本依赖:SimCLR/CLIP 类方法需要大量负样本,训练开销大且对 batch size 敏感。
核心矛盾¶
跨模态对齐要求模态间相似,但每种模态天然拥有其他模态无法提供的独有信息(如 SAR 能穿透云层、Depth 包含几何结构),两者诉求互相冲突。
切入角度¶
从 Barlow Twins 的冗余消减框架出发,自然地将嵌入维度切分为共有/独有两组,分别施加不同的优化目标,无需负样本即可同时对齐共有信息并去耦独有信息。
核心 Idea¶
将嵌入维度显式拆分为 K_c(共有)+ K_u(独有),跨模态共有维度的互相关矩阵→单位阵(对齐),独有维度的互相关矩阵→零矩阵(去耦),再加模态内 Barlow Twins 训练避免独有维度坍缩。
方法详解¶
整体框架¶
DeCUR 为双编码器-双投影器的 joint embedding 结构:
- 两个模态各有独立的 Encoder + MLP Projector(3层,输出维度 8192)
- 每个模态生成两组增强视图的嵌入
- 嵌入维度按比例分为 common 和 unique 两部分
- 跨模态:common 维度互相关→单位阵;unique 维度互相关→零矩阵
- 模态内:全维度的 Barlow Twins 训练(每个模态各做一次)
- (可选)在 ConvNet 编码器最后两个 stage 添加带残差连接的可变形注意力(RDA)
关键设计¶
| 组件 | 设计细节 | 作用 |
|---|---|---|
| 嵌入拆分 | K = K_c + K_u,SAR-optical 共有比例 87.5%,RGB-DEM/Depth 75% | 控制共有/独有的容量分配 |
| 跨模态共有损失 L_com | 互相关矩阵对角→1,非对角→0(同 Barlow Twins) | 跨模态对齐 + 去冗余 |
| 跨模态独有损失 L_uni | 互相关矩阵全部→0(包括对角元素) | 强制模态间独有维度去相关 |
| 模态内损失 L_M1 / L_M2 | 同一模态两增强视图的全维度 Barlow Twins | 避免独有维度坍缩,增强单模态表征 |
| 可变形注意力 (RDA) | DAT++ 在 ResNet-50 最后两阶段 + 残差连接 | 数据驱动地聚焦模态关键区域 |
| 批归一化 | 嵌入沿 batch 维度做均值中心化 | 稳定互相关矩阵计算 |
损失函数/训练策略¶
总损失:
各项通过权衡系数 λ 平衡不变性项与冗余消减项,默认均为 0.0051。
训练策略:
| 参数 | SAR-Optical / RGB-DEM | RGB-Depth |
|---|---|---|
| Epochs | 100 | 200 |
| Batch size | 256 | 128 |
| GPU | 4× NVIDIA A100 | 4× NVIDIA A100 |
| Backbone | ResNet-50 | ResNet-50 / MiT-B2/B5 |
| 投影器维度 | 8192 | 8192 |
| 训练时长 | SAR-opt 35h / GeoNRW 6h | SUN-RGBD 6h |
实验关键数据¶
主实验¶
SAR-Optical 场景分类 (BigEarthNet-MM, mAP)
| 方法 | 多模态 1% | 多模态 100% | SAR-only 1% | SAR-only 100% |
|---|---|---|---|---|
| SimCLR-cross | 77.4/78.7 | 82.8/89.6 | 68.1/70.4 | 71.7/83.7 |
| CLIP | 77.4/78.7 | 82.8/89.6 | 68.0/70.2 | 71.7/83.4 |
| Barlow Twins | 78.7/80.3 | 83.2/89.5 | 72.3/73.7 | 77.8/83.6 |
| DeCUR | 79.8/81.5 | 86.2/89.8 | 74.4/76.0 | 79.5/84.0 |
格式:linear-probing / fine-tuning
RGB-DEM 语义分割 (GeoNRW, mIoU)
| 方法 | 多模态 1% frozen/FT | 多模态 100% frozen/FT | RGB-only 1% frozen/FT | RGB-only 100% frozen/FT |
|---|---|---|---|---|
| SimCLR-cross | 23.0/30.2 | 35.2/47.3 | 20.1/25.9 | 29.6/42.5 |
| Barlow Twins | 31.2/33.6 | 43.0/48.4 | 29.4/33.4 | 38.0/45.9 |
| DeCUR | 34.7/36.6 | 44.7/48.9 | 32.2/35.7 | 40.8/46.7 |
RGB-Depth 语义分割 (SUN-RGBD / NYUDv2, mIoU)
| 模型 | SUN-RGBD mIoU | NYUDv2 mIoU |
|---|---|---|
| FCN (CLIP) | 30.5 | 30.4 |
| FCN (DeCUR) | 34.5 (+4.0) | 31.2 (+0.8) |
| CMX-B2 | 49.7 | - |
| CMX-B2 (DeCUR) | 50.6 (+0.9) | - |
| CMX-B5 | - | 56.9 |
| CMX-B5 (DeCUR) | - | 57.3 (+0.4) |
消融实验¶
损失项消融 (1% labels fine-tuning)
| 配置 | SAR-optical (mAP) | RGB-DEM (mIoU) |
|---|---|---|
| DeCUR (完整) | 81.7 | 36.9 |
| 无模态内 & 无解耦 (纯跨模态 BT) | 80.3 | 33.6 |
| 无模态内训练 (仅解耦) | 80.1 | 34.3 |
| 无解耦 (仅模态内) | 81.1 | 35.2 |
可变形注意力消融 (frozen encoder)
| 配置 | BigEarthNet-MM 1%/100% | GeoNRW-MM 1%/100% |
|---|---|---|
| 无 DA | 79.4/85.4 | 34.9/43.9 |
| 有 DA(无残差) | −0.1/− | −0.6/− |
| 有 RDA(带残差) | +0.4/+0.8 | −0.2/+0.8 |
关键发现¶
- 解耦+模态内缺一不可:仅做解耦但无模态内训练会导致独有维度坍缩为随机值,下游效果不稳定。
- 共有比例因模态而异:SAR-optical 最佳共有维度 87.5%,RGB-DEM/Depth 75%,与领域直觉一致(DEM 独有信息更多)。
- 共有比例对嵌入维度鲁棒:512 或 8192 维下最佳比例一致。
- 残差连接对可变形注意力至关重要:无残差的 DA 在少标签场景反而降低性能。
- 单模态缺失场景优势显著:SAR-only 比 BT-SAR 提升 2.0−3.2%,证明联合预训练帮助单模态理解。
亮点与洞察¶
- 极简但有效的设计:仅需在 Barlow Twins 基础上切分维度并修改一行损失目标(对角→0),零外部依赖。
- 可解释性分析出色:GradCAM/Integrated Gradients 证实独有维度的空间显著性确实更正交,光谱显著性与领域知识吻合(近红外重要、水汽/卷云波段不重要)。
- 可变形注意力可视化:光学模型学会忽略云层,SAR 模型反而关注云区——因为雷达能穿透云层。
- 跨架构泛化性好:ResNet-50 和 MiT-B2/B5 均获提升,且预训练权重可直接迁移到 SOTA 监督模型 CMX。
- 嵌入空间稀疏性:解耦至 50% 独有维度时性能无显著下降,暗示共有空间存在大量冗余。
局限性/可改进方向¶
- 全局固定比例:整个数据集共享同一 common/unique 比例,未考虑不同样本间模态独有信息量的差异(如某些场景云层多、独有信息比例应更高)。
- 需要网格搜索最佳比例:大数据集上的搜索成本高,虽然 ~80% 通常可行,但缺乏自适应策略。
- 仅限双模态:当前框架未扩展到三种及以上模态的联合解耦。
- 下游任务有限:主要验证分类和语义分割,缺少检测/生成等任务的验证。
- 未与 MAE 类生成式方法对比:单模态 MAE / MultiMAE 等未纳入基线。
相关工作与启发¶
| 相关方法 | 关系 |
|---|---|
| Barlow Twins | DeCUR 的直接上游,DeCUR = 多模态版本 + 维度解耦 |
| VICReg | 同属冗余消减类,DeCUR 在所有场景上均优于 VICReg |
| CLIP / SimCLR-cross | 跨模态对比学习基线,依赖负样本,DeCUR 无需负样本 |
| FactorCL | 同时期分解共有/独有的工作,但通过模态特定增强实现,DeCUR 直接在嵌入维度上操作更简洁 |
| ImageBind | 多模态联合嵌入,DeCUR 解耦思路可扩展到 ImageBind 的共享空间 |
| CMX | DeCUR 预训练权重可直接提升 CMX 的 RGBD 分割性能 |
启发:解耦思路可推广到任意联合嵌入框架——在共享空间中预留一部分维度给模态独有信息,几乎不增加复杂度。自适应的 common/unique 比例(per-sample 或 per-region)是明显的改进方向。
评分¶
- ⭐⭐⭐⭐ 新颖性:将 Barlow Twins 的维度拆分为 common/unique 并分别优化是自然但巧妙的扩展,idea 清晰优雅
- ⭐⭐⭐⭐⭐ 实验充分度:三类多模态场景 + 多标签/多架构/模态缺失/消融/可解释性,覆盖非常全面
- ⭐⭐⭐⭐ 写作质量:结构清晰,可视化丰富(t-SNE、GradCAM、光谱显著性、可变形点),易于理解
- ⭐⭐⭐⭐ 实用价值:方法简洁易复现,对遥感/RGBD 社区有直接应用价值;但对齐NLP/语言-图像等主流多模态场景的验证缺失