跳转至

Adaptive Multi-head Contrastive Learning

会议: ECCV 2024
arXiv: 2310.05615
代码: https://github.com/LeiWangR/cl (有)
领域: 自监督学习
关键词: 对比学习, 多头投影, 自适应温度, 最大似然估计, 自监督表征

一句话总结

AMCL提出使用多个投影头(各自产生不同特征)+ 对每个样本对和每个头自适应学习温度参数,从最大似然估计推导出损失函数,作为通用插件在SimCLR/MoCo/Barlow Twins/CAN/LGP上一致提升1-5%性能。

背景与动机

对比学习中,同一图像的两个增强视图构成正样本对(期望高相似度),不同图像构成负样本对(期望低相似度)。但由于多种数据增强策略,正样本对有时看起来并不相似(如极端裁剪后两个视图无重叠),负样本对有时反而相似。现有方法用单一投影头和全局固定温度,无法处理这种相似度分布的多样性,强行拉近/推远会损害表征质量。

核心问题

如何在对比学习中处理正负样本对相似度分布的多样性,尤其在使用多种数据增强策略时?

方法详解

整体框架

在标准对比学习框架(骨干编码器+投影头+损失函数)基础上,(1)将单一投影头复制为C=3-5个独立MLP投影头,(2)为每个头的每对样本学习自适应温度参数。损失函数从MLE推导得出,可直接替换SimCLR/MoCo等的原始损失。

关键设计

  1. 多个独立投影头: C个结构相同但权重独立学习的MLP投影头,各自捕获数据的不同方面(类比Transformer中的多头注意力)。每个头对同一对样本可能给出不同的相似度评分,通过加和聚合所有头的损失。实验表明多头比等参数量的单头宽MLP更优。

  2. 对自适应温度(pair-adaptive temperature): 每个头的每对正/负样本对都有各自的温度\(\tau\),通过一个共享MLP从两个样本的特征点积经sigmoid映射得到。正样本温度\(\tau^+\)和负样本温度\(\tau^-\)分别控制对齐和排斥的强度。关键洞察:温度=不确定性——高温度(高不确定性)表示该对样本的相似/不相似程度不确定,应降低其对损失的贡献。

  3. 正则化项\(\Omega(\tau)\): \(\Omega(\tau) = (d'/2)\log(\tau) + 1/\tau\),从高斯似然推导得出,防止温度趋向0(退化解)。物理意义:\(\log\tau\)鼓励正样本低温(更确定地对齐),\(1/\tau\)鼓励高温(避免过度确定),两者平衡。

损失函数 / 训练策略

  • 从MLE推导:将正负样本对的距离建模为高斯分布,方差(=温度)为可学习参数
  • 负样本使用Top-κ策略选择最困难的负样本,κ由Hyperopt自动调优
  • 额外参数约5%(仅多了几个MLP头和温度MLP),额外FLOPs约5%

实验关键数据

方法 数据集 Baseline +AMCL 提升
SimCLR (R18) CIFAR-10 89.9 92.2 +2.3%
MoCo (R18) CIFAR-10 90.4 92.9 +2.5%
SimCLR (R18) CIFAR-100 57.6 61.8 +4.2%
MoCo (R18) CIFAR-100 64.4 69.3 +4.9%
SimCLR (R50) ImageNet (100ep) 66.5 68.1 +1.6%
LGP (ViT-L) ImageNet (1600ep, fine-tune) 85.9 87.4 +1.5%
MoCo (ViT-B) COCO Det AP50 49.2 53.3 +4.1%
LGP (ViT-B) COCO Det AP50 54.9 57.0 +2.1%

消融实验要点

  • 多头 vs 单头+自适应温度:多头+自适应温度效果最佳,单头自适应温度与固定温度相当,说明多头是关键
  • 投影头数量:3-5个最优,超过4个有轻微过拟合
  • 增强类型数量:从1种增强时提升~1%到5种增强时提升~4.6%,验证了动机
  • 多头 vs 更宽MLP:等参数量下多头优于宽MLP约1.6-2.5%
  • 自适应温度 vs TaU/TS等SOTA温度方案:自适应+多头显著优于其他方案

亮点 / 我学到了什么

  • 温度=不确定性的联系很优雅,通过MLE推导自然得出,不是人为设计
  • 多头投影类比Transformer多头注意力,各头隐式学习关注数据不同方面,比手动设计更灵活
  • "增强越多提升越大"的实验结果完美验证动机——相似度分布越复杂,多头+自适应温度的优势越大
  • 作为通用即插即用模块,兼容所有主流对比学习框架,实用性强

局限性 / 可改进方向

  • 仅在对比学习损失部分改进,未与MIM损失联合优化头的设计
  • 头数超过5时有轻微过拟合问题
  • Top-κ等超参需要Hyperopt搜索,增加调优成本
  • 未探索不同头是否可以使用不同结构(目前是相同结构不同权重)

与相关工作的对比

  • TaU (温度作为不确定性): 温度直接依赖特征而非相似度,非pair-adaptive;AMCL pair-adaptive更精细
  • TS (温度余弦调度): 全局调度不adaptve to个体对;AMCL每对样本独立
  • Multi-similarity Learning: 有监督+多属性标签;AMCL是无监督的

与我的研究方向的关联

  • 多头投影+自适应温度的框架可作为任何对比学习任务的通用改进
  • 温度=不确定性的理论联系对设计新的损失函数有启发
  • 目前ideas/中无直接关联idea

评分

  • 新颖性: ⭐⭐⭐⭐ 多头+自适应温度的组合有洞察力,MLE推导优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、6种SSL方法、5种骨干、多种消融,非常全面
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,可视化说服力强
  • 对我的价值: ⭐⭐⭐ 对比学习非我主攻,但自适应温度思路可借鉴