跳转至

Continual Multimodal Contrastive Learning

会议: NeurIPS 2025
arXiv: 2503.14963
代码: https://github.com/Xiaohao-Liu/CMCL
领域: 多模态VLM / 持续学习
关键词: 持续对比学习, 多模态表征, 梯度投影, 零空间, 稳定性-可塑性

一句话总结

首次形式化定义持续多模态对比学习(CMCL)问题——按顺序在不同模态对数据上训练而不忘记之前的对齐,提出Dual-sided Null Space (DNS)方法将新梯度投影到不影响旧知识的子空间,在7个数据集11个训练步骤上一致优于现有持续学习基线。

背景与动机

多模态对比学习(如CLIP)通常需要一次性收集所有模态对数据。但现实中数据是逐步到来的:先训练视觉-文本对,再训练视觉-音频对,再训练文本-音频对...关键挑战:训练新模态对时不能破坏之前学好的对齐。已有持续学习方法(EWC/LwF等)不考虑跨模态交互的复杂性——新数据的梯度可能同时通过共享编码器影响多个模态的表征。

核心问题

如何在持续引入新模态对数据时,保持已有模态间的对齐(稳定性)同时有效学习新模态对(可塑性)?

方法详解

核心方法:Dual-sided Null Space (DNS)

  • 稳定性要求→ 新梯度不应改变旧模态对的对齐分数
  • 可塑性要求→ 新梯度应能有效学习新模态对的对比目标
  • 解决方案:将新梯度从双侧投影到旧知识的零空间。"双侧"指同时考虑共享模态(m1)和被对齐模态(m2)的特征矩阵构建投影器。投影后的梯度 ΔW 满足 A_{old}(W+ΔW) = A_{old}(W)——不影响旧对齐。

理论保证

  • 稳定性上界: 投影引入的对齐误差有理论上界,且可通过增大特征矩阵的rank来收紧
  • 可塑性上界: 投影后梯度与原始梯度的差异也有上界,保证学习能力不会过分损失

扩展到任意模态对

当step t的模态对(m1,m3)与step t-1的(m1,m2)共享m1但不共享m2/m3时:对m2设∇W=0(不更新),只对共享模态m1做保护性投影。

实验关键数据

  • 7个数据集: UCF101, ESC50, NYUDv2, VGGSound-S, Clotho, TVL, LLVIP
  • 7种模态: 视觉/音频/文本/视频/热红外/触觉/深度
  • 11个训练步骤: 覆盖不同模态对的序列训练
  • 3个backbone: ImageBind, LanguageBind, UniBind
  • 在所有配置上DNS一致超越EWC、Adam-NSCL等持续学习基线
  • 在保持旧对齐质量的同时,新模态对的学习效果接近从头训练的上界

亮点

  • 全新问题定义: CMCL是之前完全未被形式化的问题领域
  • 理论驱动: 从稳定性/可塑性的形式化定义推导出算法,而非启发式设计
  • 双侧投影insight: 考虑共享模态和被对齐模态的双向约束,比单侧投影更完整
  • 多模态多步骤: 11步训练覆盖7种模态,实验设置的覆盖面大

局限性

  • 需要存储旧步骤的特征矩阵做投影,内存开销随步骤数增长
  • 线性投影器假设可能在更复杂的非线性映射中不成立
  • 仅在对比学习框架下验证,未测试生成式多模态模型

启发与关联

  • 与BranchLoRA(ACL2025)互补:BranchLoRA做持续指令微调(分类下游任务),CMCL做持续对比学习(表征对齐)
  • DNS的零空间投影思路可以用于KV-Latent的维度降采样——确保降维不破坏已有的Key-Value对齐
  • CMCL的理论框架可以指导LVLM的持续训练——逐步引入新模态(如3D、触觉)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ CMCL问题定义+DNS方法+理论保证,三重贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 7数据集、7模态、11步骤、3 backbone
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义→理论→算法→实验的逻辑链极其完整
  • 价值: ⭐⭐⭐⭐ 为多模态模型的增量训练提供了理论基础