跳转至

DeCUR: Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

会议: ECCV 2024
arXiv: 2309.05300
代码: GitHub
领域: 多模态自监督学习 / 表示解耦
关键词: multimodal SSL, representation decoupling, Barlow Twins, remote sensing, RGB-depth

一句话总结

将Barlow Twins扩展到多模态场景,通过将嵌入维度显式分为跨模态公共(对齐到identity矩阵)和模态独特(推到零矩阵)两部分,配合模态内自监督训练避免退化,在SAR-光学、RGB-DEM、RGB-深度三类场景中一致超越SimCLR-cross和Barlow Twins基线。

研究背景与动机

领域现状:多模态自监督学习主要通过跨模态对比学习(如CLIP、SimCLR-cross)将不同模态对齐到公共嵌入空间。这些方法只学习跨模态共享信息,忽略了模态独特信息(如SAR的纹理结构、光学的颜色信息),导致表示能力受限。

现有痛点:(1) 纯跨模态对齐会压制模态特有信息,迫使模型将正交的表示塞入共享空间;(2) 已有解耦方法(FactorCL等)需要模态特定的增强策略或复杂的信息瓶颈,实现复杂;(3) 缺少模态内训练导致独特维度可能退化为无意义值。

核心矛盾:如何在一个简单框架中同时学习跨模态共享表示和模态独特表示,且防止独特维度退化?

方法详解

整体框架

DeCUR是Barlow Twins的多模态扩展。两个模态各有独立的编码器和3层MLP投射器,产出嵌入后分为公共维度(\(K_c\)个)和独特维度(\(K_u\)个)。跨模态:公共维度的互相关矩阵→驱向identity(对齐),独特维度的互相关矩阵→驱向zero(解耦)。模态内:每个模态用两个增广视图计算全维度互相关矩阵→驱向identity(自监督)。可选在ConvNet最后两层加入Deformable Attention增强模态敏感区域聚焦。

关键设计

  1. 跨模态表示解耦

    • 将总嵌入维度\(K\)分为\(K_c\)(公共)和\(K_u\)(独特),比例通过网格搜索确定(SAR-光学87.5%公共,RGB-DEM/深度75%公共)
    • 公共维度损失\(\mathcal{L}_{com}\):驱动互相关矩阵\(\mathcal{C}_c\)对角线为1(不变性)、非对角线为0(去冗余)
    • 独特维度损失\(\mathcal{L}_{uni}\):驱动\(\mathcal{C}_u\)所有元素为0——确保两个模态的独特维度互不相关
    • 设计动机:直接在嵌入维度上操作,无需信息瓶颈或特殊增强,实现极其简单
  2. 模态内表示增强

    • 对每个模态用Barlow Twins方式训练(两个增广视图的全维度互相关矩阵→identity)
    • 关键作用:防止独特维度退化——如果只推独特维度跨模态为零而无模态内约束,这些维度可能坍缩到随机不相关值
    • 同时为跨模态学习提供更强的模态内知识基础

损失函数 / 训练策略

总损失 \(\mathcal{L} = \mathcal{L}_{com} + \mathcal{L}_{uni} + \mathcal{L}_{M1} + \mathcal{L}_{M2}\)

各项中的权衡系数\(\lambda\)统一设为0.0051。投射器输出维度8192。ResNet-50 backbone + 可选Deformable Attention。分布式4×A100,SSL4EO-S12 100 epochs,GeoNRW 100 epochs,SUN-RGBD 200 epochs,batch size 128-256。

实验关键数据

主实验

SAR-光学场景分类(BigEarthNet-MM mAP,linear/fine-tune):

方法 多模态 1% 多模态 100% SAR-only 1% SAR-only 100%
SimCLR-cross 77.4/78.7 82.8/89.6 68.1/70.4 71.7/83.7
Barlow Twins 78.7/80.3 83.2/89.5 72.3/73.7 77.8/83.6
DeCUR 79.8/81.5 86.2/89.8 74.4/76.0 79.5/84.0

RGB-DEM语义分割(GeoNRW mIoU):

方法 多模态 Frozen 1% 多模态 Fine-tune 100%
SimCLR-cross 23.0 47.3
Barlow Twins 31.2 48.4
DeCUR 34.7 48.9

消融实验

消融项 BigEarthNet mAP (100%)
Full DeCUR 86.2
\(\mathcal{L}_{uni}\)(无解耦) 83.6
无模态内损失 84.1
无Deformable Attention 85.5
公共比例 75% / 87.5% / 100% 85.8 / 86.2 / 83.2

关键发现

  • 解耦损失\(\mathcal{L}_{uni}\)贡献最大(+2.6%),证实了显式解耦的必要性
  • 100%公共维度(即标准Barlow Twins)表现最差——独特维度携带了不可忽视的模态特有信息
  • SAR-only场景中DeCUR比单模态Barlow Twins高2-3%——多模态预训练帮助模型更好理解单个模态
  • 与ResNet-50规模的EO基础模型相比,DeCUR达到同等水平(BigEarthNet-S2 87.2% vs SeCo 82.6%)

亮点与洞察

  • 极其简单优雅的方法——只需在Barlow Twins的互相关矩阵上做维度切分,无需额外架构或复杂训练策略
  • 模态内训练是防止独特维度退化的关键,解决了一个容易被忽视的工程问题
  • t-SNE可视化清晰展示了公共和独特维度的分离效果

局限性 / 可改进方向

  • 公共/独特维度比例需要手动搜索,缺乏自适应确定机制
  • 仅在ResNet-50和MiT上验证,未测试更大backbone(ViT-L等)
  • 三个场景的数据规模较小(最大251K),在更大规模数据上的效果未知
  • 只考虑了双模态情况,扩展到三模态及以上的方案未讨论

相关工作与启发

  • vs Barlow Twins:DeCUR是其自然的多模态扩展,核心改进是将嵌入分为公共和独特维度
  • vs FactorCL:FactorCL需要模态特定增强和信息论约束,DeCUR更简洁——直接在维度上操作
  • vs CLIP/CROMA:这些对比学习方法只学共享表示;DeCUR额外保留模态独特信息
  • 启发:在遥感等多传感器场景,模态独特信息(如SAR的穿透能力)可能比共享信息更有价值——有必要显式保留

评分

  • 新颖性: ⭐⭐⭐⭐ 维度切分解耦思路简洁有效,Barlow Twins的自然且有意义的扩展
  • 实验充分度: ⭐⭐⭐⭐ 三种多模态场景+多模态/单模态评估+详细消融
  • 写作质量: ⭐⭐⭐⭐ 方法清晰,损失设计逻辑自洽
  • 价值: ⭐⭐⭐⭐ 对多模态自监督学习有启发,方法简单易复现

相关论文