Adaptive Multi-head Contrastive Learning¶

会议: ECCV 2024
arXiv: 2310.05615
代码: https://github.com/LeiWangR/cl (有)
领域: 自监督学习
关键词: 对比学习, 多头投影, 自适应温度, 最大似然估计, 自监督表征

一句话总结¶

AMCL提出使用多个投影头（各自产生不同特征）+ 对每个样本对和每个头自适应学习温度参数，从最大似然估计推导出损失函数，作为通用插件在SimCLR/MoCo/Barlow Twins/CAN/LGP上一致提升1-5%性能。

背景与动机¶

对比学习中，同一图像的两个增强视图构成正样本对（期望高相似度），不同图像构成负样本对（期望低相似度）。但由于多种数据增强策略，正样本对有时看起来并不相似（如极端裁剪后两个视图无重叠），负样本对有时反而相似。现有方法用单一投影头和全局固定温度，无法处理这种相似度分布的多样性，强行拉近/推远会损害表征质量。

核心问题¶

如何在对比学习中处理正负样本对相似度分布的多样性，尤其在使用多种数据增强策略时？

方法详解¶

整体框架¶

在标准对比学习框架（骨干编码器+投影头+损失函数）基础上，(1)将单一投影头复制为C=3-5个独立MLP投影头，(2)为每个头的每对样本学习自适应温度参数。损失函数从MLE推导得出，可直接替换SimCLR/MoCo等的原始损失。

关键设计¶

多个独立投影头: C个结构相同但权重独立学习的MLP投影头，各自捕获数据的不同方面（类比Transformer中的多头注意力）。每个头对同一对样本可能给出不同的相似度评分，通过加和聚合所有头的损失。实验表明多头比等参数量的单头宽MLP更优。
对自适应温度(pair-adaptive temperature): 每个头的每对正/负样本对都有各自的温度\(\tau\)，通过一个共享MLP从两个样本的特征点积经sigmoid映射得到。正样本温度\(\tau^+\)和负样本温度\(\tau^-\)分别控制对齐和排斥的强度。关键洞察：温度=不确定性——高温度(高不确定性)表示该对样本的相似/不相似程度不确定，应降低其对损失的贡献。
正则化项\(\Omega(\tau)\): \(\Omega(\tau) = (d'/2)\log(\tau) + 1/\tau\)，从高斯似然推导得出，防止温度趋向0（退化解）。物理意义：\(\log\tau\)鼓励正样本低温（更确定地对齐），\(1/\tau\)鼓励高温（避免过度确定），两者平衡。

损失函数 / 训练策略¶

从MLE推导：将正负样本对的距离建模为高斯分布，方差（=温度）为可学习参数
负样本使用Top-κ策略选择最困难的负样本，κ由Hyperopt自动调优
额外参数约5%（仅多了几个MLP头和温度MLP），额外FLOPs约5%

实验关键数据¶

方法	数据集	Baseline	+AMCL	提升
SimCLR (R18)	CIFAR-10	89.9	92.2	+2.3%
MoCo (R18)	CIFAR-10	90.4	92.9	+2.5%
SimCLR (R18)	CIFAR-100	57.6	61.8	+4.2%
MoCo (R18)	CIFAR-100	64.4	69.3	+4.9%
SimCLR (R50)	ImageNet (100ep)	66.5	68.1	+1.6%
LGP (ViT-L)	ImageNet (1600ep, fine-tune)	85.9	87.4	+1.5%
MoCo (ViT-B)	COCO Det AP50	49.2	53.3	+4.1%
LGP (ViT-B)	COCO Det AP50	54.9	57.0	+2.1%

消融实验要点¶

多头 vs 单头+自适应温度：多头+自适应温度效果最佳，单头自适应温度与固定温度相当，说明多头是关键
投影头数量：3-5个最优，超过4个有轻微过拟合
增强类型数量：从1种增强时提升~1%到5种增强时提升~4.6%，验证了动机
多头 vs 更宽MLP：等参数量下多头优于宽MLP约1.6-2.5%
自适应温度 vs TaU/TS等SOTA温度方案：自适应+多头显著优于其他方案

亮点 / 我学到了什么¶

温度=不确定性的联系很优雅，通过MLE推导自然得出，不是人为设计
多头投影类比Transformer多头注意力，各头隐式学习关注数据不同方面，比手动设计更灵活
"增强越多提升越大"的实验结果完美验证动机——相似度分布越复杂，多头+自适应温度的优势越大
作为通用即插即用模块，兼容所有主流对比学习框架，实用性强

局限性 / 可改进方向¶

仅在对比学习损失部分改进，未与MIM损失联合优化头的设计
头数超过5时有轻微过拟合问题
Top-κ等超参需要Hyperopt搜索，增加调优成本
未探索不同头是否可以使用不同结构（目前是相同结构不同权重）

与相关工作的对比¶

TaU (温度作为不确定性): 温度直接依赖特征而非相似度，非pair-adaptive；AMCL pair-adaptive更精细
TS (温度余弦调度): 全局调度不adaptve to个体对；AMCL每对样本独立
Multi-similarity Learning: 有监督+多属性标签；AMCL是无监督的

与我的研究方向的关联¶

多头投影+自适应温度的框架可作为任何对比学习任务的通用改进
温度=不确定性的理论联系对设计新的损失函数有启发
目前ideas/中无直接关联idea

评分¶

新颖性: ⭐⭐⭐⭐ 多头+自适应温度的组合有洞察力，MLE推导优雅
实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、6种SSL方法、5种骨干、多种消融，非常全面
写作质量: ⭐⭐⭐⭐ 理论推导清晰，可视化说服力强
对我的价值: ⭐⭐⭐ 对比学习非我主攻，但自适应温度思路可借鉴