跳转至

Contrastive Consolidation of Top-Down Modulations Achieves Sparsely Supervised Continual Learning

会议: NeurIPS 2025
arXiv: 2505.14125
代码: (见论文链接)
领域: 持续学习 / 自监督学习
关键词: continual learning, contrastive learning, top-down modulation, catastrophic forgetting, sparse supervision, predictive coding

一句话总结

提出 Task-Modulated Contrastive Learning (TMCL),受大脑新皮层自顶向下调制启发,在持续学习中通过 affine modulation 集成稀疏标签信息(仅需 1% 标签),再利用对比学习将调制信息固化到前馈权重中,在 class-incremental 和迁移学习上超越无监督和有监督基线。

研究背景与动机

  1. 领域现状:生物大脑能从无标签数据流中持续学习,同时整合偶尔出现的标签信息而不退化。相比之下,机器学习模型在持续学习中面临灾难性遗忘(catastrophic forgetting)——新任务的有监督微调会损害旧任务性能。
  2. 现有痛点:(a) 现有持续学习方法通常依赖大量标注数据或明确的任务边界;(b) 无监督持续学习方法能避免遗忘但利用不了标签信息来提升分类能力;(c) 有监督方法标签利用效率低,少量标签就可能导致过拟合并加剧遗忘。
  3. 核心矛盾:稳定性和可塑性之间的权衡——利用新标签需要可塑性(修改表征),但修改表征会破坏旧知识(需要稳定性)。
  4. 本文要解决什么:如何在极稀疏标签(1%)下实现有效的持续学习?即如何让模型既能从无标签数据流中持续建立通用表征,又能在偶尔遇到标签时高效整合专门知识。
  5. 切入角度:受大脑新皮层中自顶向下调制(top-down modulation)的启发——高层如前额叶皮层通过调制信号影响低层表征(如注意力机制),但不改变低层的突触权重(前馈连接)。预测编码(predictive coding)原理提供了实现框架。
  6. 核心 idea 一句话:新类标签只学调制参数(不改前馈权重),然后用对比学习让无调制表征"吸收"调制信息(modulation invariance),实现稳定的知识固化。

方法详解

整体框架

TMCL 基于对比学习框架,分两个核心机制运作:(1) 当遇到新类标签时,学习 task-specific 的 affine modulation 参数(仿射变换 \(\gamma, \beta\)),这些参数调制中间层表征以提高新类的可分性,但不修改前馈权重;(2) 利用对比损失训练前馈权重,使无调制的表征与有调制的表征在嵌入空间中对齐(modulation invariance),同时用历史任务的调制来稳定表征空间。

关键设计

  1. Task-Specific Affine Modulation
  2. 做什么:为每个新类学习额外的仿射变换参数来调制中间层特征
  3. 核心思路:给定新类的少量标签样本,在网络中间层引入 \(h' = \gamma \odot h + \beta\) 形式的调制,通过优化这些低参数量的 \(\gamma, \beta\) 来最大化新类与已知类的分离度
  4. 设计动机:仅修改调制参数而非前馈权重,类似大脑自顶向下注意力调制低层响应的方式,从源头避免了因修改共享权重导致的灾难性遗忘

  5. View-Invariance + Modulation-Invariance 对比学习

  6. 做什么:训练前馈权重使表征同时具备视角不变性和调制不变性
  7. 核心思路:在标准对比学习的视角不变性基础上(同一样本的不同增强视角应映射到相近表征),增加调制不变性目标——无调制表征应与同一样本的有调制表征对齐。对比损失的正例对包括:(原始视角, 增强视角) 和 (无调制, 有调制)
  8. 设计动机:通过让前馈网络"吸收"调制带来的分类信息到其权重中,无需在推理时使用调制参数即可获得好的表征

  9. 历史调制稳定化(Consolidation)

  10. 做什么:用过去任务的调制参数防止表征漂移
  11. 核心思路:在训练当前任务时,同时要求前馈表征与过去所有任务的调制表征保持对齐,形成多任务的 modulation invariance 约束
  12. 设计动机:过去的调制参数作为"锚点"稳定表征空间,防止新任务学习导致旧任务判别性丧失——这就是"contrastive consolidation"的含义

训练策略

两阶段交替:(1) 遇到新类标签→冻结前馈权重,仅优化新的调制参数 \(\gamma, \beta\);(2) 正常的无标签数据流→更新前馈权重,用对比损失同时优化 view-invariance 和 modulation-invariance(包括当前和历史调制)。

这种训练策略的精妙之处在于完全分离了“知识获取”和“知识固化”两个阶段。调制参数作为轻量级接口快速吸收新类信息,而对比学习将这些信息缓慢但稳定地“编译”进前馈网络。历史调制参数在 consolidation 中起“锚点”作用,防止新任务学习导致旧任务表征漂移——这是 contrastive consolidation 的核心机制。

实验关键数据

主实验(Class-Incremental Learning)

方法 标签比例 性能说明
无监督持续学习 baseline 0% 基准性能
有监督持续学习 baseline 100% 严重灾难性遗忘
TMCL 1% 超越无监督和同等条件有监督方法

消融实验

配置 说明
无 modulation invariance 调制信息无法固化到前馈权重,性能下降
无历史调制 consolidation 旧任务判别性丧失,遗忘加剧
无 view-invariance 通用表征质量下降

关键发现

  • 仅 1% 标签即可实现显著性能提升,说明调制机制的标签利用效率极高
  • Modulation invariance 是关键——它将"额外参数的信息"转移到了共享的前馈权重中
  • 历史调制的 consolidation 有效防止表征漂移,调制参数作为轻量级"任务记忆"即可稳定表征

亮点与洞察

  • 生物启发的精确工程映射:不是泛泛的"受大脑启发",而是将新皮层自顶向下调制的具体生物机制(不改突触权重,通过调制信号影响活动模式)精确映射为仿射变换 + 对比学习的工程方案
  • 调制作为轻量级知识接口:每个新类只需学几个仿射参数(远少于全连接层),然后通过 consolidation 将信息"编译"进前馈网络——优雅地分离了"知识获取"和"知识固化"两个阶段
  • 1% 标签的极致效率:在标签极其稀疏的设置下超越需要更多标签的有监督方法,说明关键不是标签量而是标签利用方式

局限性 / 可改进方向

  • 需要已知新类出现时机:方法假设知道何时遇到了新类标签,真实场景中类别边界可能模糊,需要新类检测机制
  • 调制参数累积:随着学习类别增多,历史调制参数线性增长,学习 1000+ 类后存储和计算 consolidation loss 可能成为瓶颈
  • 仅验证视觉分类:未在 NLP 或多模态持续学习场景下验证,Transformer 架构下的适配方案未探索
  • 1% 标签的分布假设:假设 1% 标签均匀采样,但真实场景中标签可能集中出现或分布不均
  • 对比学习的负样本依赖:当前 batch 中的负样本质量直接影响 contrastive consolidation 的效果,小 batch size 下可能退化
  • 改进方向:(1) 自动检测新类出现而非依赖人工标记;(2) 压缩/合并历史调制参数减少累积开销;(3) 将调制机制扩展到 Transformer/ViT 架构;(4) 探索 prompt tuning 形式的调制替代 affine 变换

相关工作与启发

  • vs EWC/SI 等正则化方法:这些方法通过惩罚重要权重的变化来防止遗忘,但间接且保守;TMCL 直接分离调制和前馈权重,更优雅
  • vs 经验回放:回放需要存储过去样本,TMCL 只存调制参数(远更轻量),且不涉及隐私问题
  • vs LUMP/CaSSLe 等无监督持续学习:它们不利用标签;TMCL 展示"极少标签+正确利用方式"远优于"无标签"
  • 启发:调制 invariance 的思想可推广——任何"条件信息"都可通过类似机制被"编译"进网络权重

评分

  • 新颖性: ⭐⭐⭐⭐ 生物启发的调制+对比 consolidation 组合新颖,机制清晰
  • 实验充分度: ⭐⭐⭐ 受限于 abs 信息,具体数据集和指标细节不充分
  • 写作质量: ⭐⭐⭐⭐ 摘要表述清晰,生物启发的动机链完整
  • 价值: ⭐⭐⭐⭐ 为稀疏监督持续学习开辟了新方向,调制 invariance 是可迁移的核心思想