DeCUR: Decoupling Common and Unique Representations for Multimodal Self-supervised Learning¶

会议: ECCV 2024
arXiv: 2309.05300
代码: GitHub
领域: 多模态自监督学习 / 表示解耦
关键词: multimodal SSL, representation decoupling, Barlow Twins, remote sensing, RGB-depth

一句话总结¶

将Barlow Twins扩展到多模态场景，通过将嵌入维度显式分为跨模态公共（对齐到identity矩阵）和模态独特（推到零矩阵）两部分，配合模态内自监督训练避免退化，在SAR-光学、RGB-DEM、RGB-深度三类场景中一致超越SimCLR-cross和Barlow Twins基线。

研究背景与动机¶

领域现状：多模态自监督学习主要通过跨模态对比学习（如CLIP、SimCLR-cross）将不同模态对齐到公共嵌入空间。这些方法只学习跨模态共享信息，忽略了模态独特信息（如SAR的纹理结构、光学的颜色信息），导致表示能力受限。

现有痛点：(1) 纯跨模态对齐会压制模态特有信息，迫使模型将正交的表示塞入共享空间；(2) 已有解耦方法（FactorCL等）需要模态特定的增强策略或复杂的信息瓶颈，实现复杂；(3) 缺少模态内训练导致独特维度可能退化为无意义值。

核心矛盾：如何在一个简单框架中同时学习跨模态共享表示和模态独特表示，且防止独特维度退化？

方法详解¶

整体框架¶

DeCUR是Barlow Twins的多模态扩展。两个模态各有独立的编码器和3层MLP投射器，产出嵌入后分为公共维度（\(K_c\)个）和独特维度（\(K_u\)个）。跨模态：公共维度的互相关矩阵→驱向identity（对齐），独特维度的互相关矩阵→驱向zero（解耦）。模态内：每个模态用两个增广视图计算全维度互相关矩阵→驱向identity（自监督）。可选在ConvNet最后两层加入Deformable Attention增强模态敏感区域聚焦。

关键设计¶

跨模态表示解耦
- 将总嵌入维度\(K\)分为\(K_c\)（公共）和\(K_u\)（独特），比例通过网格搜索确定（SAR-光学87.5%公共，RGB-DEM/深度75%公共）
- 公共维度损失\(\mathcal{L}_{com}\)：驱动互相关矩阵\(\mathcal{C}_c\)对角线为1（不变性）、非对角线为0（去冗余）
- 独特维度损失\(\mathcal{L}_{uni}\)：驱动\(\mathcal{C}_u\)所有元素为0——确保两个模态的独特维度互不相关
- 设计动机：直接在嵌入维度上操作，无需信息瓶颈或特殊增强，实现极其简单
模态内表示增强
- 对每个模态用Barlow Twins方式训练（两个增广视图的全维度互相关矩阵→identity）
- 关键作用：防止独特维度退化——如果只推独特维度跨模态为零而无模态内约束，这些维度可能坍缩到随机不相关值
- 同时为跨模态学习提供更强的模态内知识基础

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{com} + \mathcal{L}_{uni} + \mathcal{L}_{M1} + \mathcal{L}_{M2}\)

各项中的权衡系数\(\lambda\)统一设为0.0051。投射器输出维度8192。ResNet-50 backbone + 可选Deformable Attention。分布式4×A100，SSL4EO-S12 100 epochs，GeoNRW 100 epochs，SUN-RGBD 200 epochs，batch size 128-256。

实验关键数据¶

主实验¶

SAR-光学场景分类（BigEarthNet-MM mAP，linear/fine-tune）：

方法	多模态 1%	多模态 100%	SAR-only 1%	SAR-only 100%
SimCLR-cross	77.4/78.7	82.8/89.6	68.1/70.4	71.7/83.7
Barlow Twins	78.7/80.3	83.2/89.5	72.3/73.7	77.8/83.6
DeCUR	79.8/81.5	86.2/89.8	74.4/76.0	79.5/84.0

RGB-DEM语义分割（GeoNRW mIoU）：

方法	多模态 Frozen 1%	多模态 Fine-tune 100%
SimCLR-cross	23.0	47.3
Barlow Twins	31.2	48.4
DeCUR	34.7	48.9

消融实验¶

消融项	BigEarthNet mAP (100%)
Full DeCUR	86.2
无\(\mathcal{L}_{uni}\)（无解耦）	83.6
无模态内损失	84.1
无Deformable Attention	85.5
公共比例 75% / 87.5% / 100%	85.8 / 86.2 / 83.2

关键发现¶

解耦损失\(\mathcal{L}_{uni}\)贡献最大（+2.6%），证实了显式解耦的必要性
100%公共维度（即标准Barlow Twins）表现最差——独特维度携带了不可忽视的模态特有信息
SAR-only场景中DeCUR比单模态Barlow Twins高2-3%——多模态预训练帮助模型更好理解单个模态
与ResNet-50规模的EO基础模型相比，DeCUR达到同等水平（BigEarthNet-S2 87.2% vs SeCo 82.6%）

亮点与洞察¶

极其简单优雅的方法——只需在Barlow Twins的互相关矩阵上做维度切分，无需额外架构或复杂训练策略
模态内训练是防止独特维度退化的关键，解决了一个容易被忽视的工程问题
t-SNE可视化清晰展示了公共和独特维度的分离效果

局限性 / 可改进方向¶

公共/独特维度比例需要手动搜索，缺乏自适应确定机制
仅在ResNet-50和MiT上验证，未测试更大backbone（ViT-L等）
三个场景的数据规模较小（最大251K），在更大规模数据上的效果未知
只考虑了双模态情况，扩展到三模态及以上的方案未讨论

评分¶

新颖性: ⭐⭐⭐⭐ 维度切分解耦思路简洁有效，Barlow Twins的自然且有意义的扩展
实验充分度: ⭐⭐⭐⭐ 三种多模态场景+多模态/单模态评估+详细消融
写作质量: ⭐⭐⭐⭐ 方法清晰，损失设计逻辑自洽
价值: ⭐⭐⭐⭐ 对多模态自监督学习有启发，方法简单易复现