Continual Multimodal Contrastive Learning¶

会议: NeurIPS 2025
arXiv: 2503.14963
代码: https://github.com/Xiaohao-Liu/CMCL
领域: 多模态VLM / 持续学习
关键词: 持续对比学习, 多模态表征, 梯度投影, 零空间, 稳定性-可塑性

一句话总结¶

首次形式化定义持续多模态对比学习(CMCL)问题——按顺序在不同模态对数据上训练而不忘记之前的对齐，提出Dual-sided Null Space (DNS)方法将新梯度投影到不影响旧知识的子空间，在7个数据集11个训练步骤上一致优于现有持续学习基线。

背景与动机¶

多模态对比学习（如CLIP）通常需要一次性收集所有模态对数据。但现实中数据是逐步到来的：先训练视觉-文本对，再训练视觉-音频对，再训练文本-音频对...关键挑战：训练新模态对时不能破坏之前学好的对齐。已有持续学习方法（EWC/LwF等）不考虑跨模态交互的复杂性——新数据的梯度可能同时通过共享编码器影响多个模态的表征。

核心问题¶

如何在持续引入新模态对数据时，保持已有模态间的对齐（稳定性）同时有效学习新模态对（可塑性）？

方法详解¶

核心方法：Dual-sided Null Space (DNS)¶

稳定性要求→ 新梯度不应改变旧模态对的对齐分数
可塑性要求→ 新梯度应能有效学习新模态对的对比目标
解决方案：将新梯度从双侧投影到旧知识的零空间。"双侧"指同时考虑共享模态(m1)和被对齐模态(m2)的特征矩阵构建投影器。投影后的梯度 ΔW 满足 A_{old}(W+ΔW) = A_{old}(W)——不影响旧对齐。

理论保证¶

稳定性上界: 投影引入的对齐误差有理论上界，且可通过增大特征矩阵的rank来收紧
可塑性上界: 投影后梯度与原始梯度的差异也有上界，保证学习能力不会过分损失

扩展到任意模态对¶

当step t的模态对(m1,m3)与step t-1的(m1,m2)共享m1但不共享m2/m3时：对m2设∇W=0（不更新），只对共享模态m1做保护性投影。

实验关键数据¶

7个数据集: UCF101, ESC50, NYUDv2, VGGSound-S, Clotho, TVL, LLVIP
7种模态: 视觉/音频/文本/视频/热红外/触觉/深度
11个训练步骤: 覆盖不同模态对的序列训练
3个backbone: ImageBind, LanguageBind, UniBind
在所有配置上DNS一致超越EWC、Adam-NSCL等持续学习基线
在保持旧对齐质量的同时，新模态对的学习效果接近从头训练的上界

亮点¶

全新问题定义: CMCL是之前完全未被形式化的问题领域
理论驱动: 从稳定性/可塑性的形式化定义推导出算法，而非启发式设计
双侧投影insight: 考虑共享模态和被对齐模态的双向约束，比单侧投影更完整
多模态多步骤: 11步训练覆盖7种模态，实验设置的覆盖面大

局限性¶

需要存储旧步骤的特征矩阵做投影，内存开销随步骤数增长
线性投影器假设可能在更复杂的非线性映射中不成立
仅在对比学习框架下验证，未测试生成式多模态模型

启发与关联¶

与BranchLoRA(ACL2025)互补：BranchLoRA做持续指令微调（分类下游任务），CMCL做持续对比学习（表征对齐）
DNS的零空间投影思路可以用于KV-Latent的维度降采样——确保降维不破坏已有的Key-Value对齐
CMCL的理论框架可以指导LVLM的持续训练——逐步引入新模态（如3D、触觉）

评分¶

新颖性: ⭐⭐⭐⭐⭐ CMCL问题定义+DNS方法+理论保证，三重贡献
实验充分度: ⭐⭐⭐⭐⭐ 7数据集、7模态、11步骤、3 backbone
写作质量: ⭐⭐⭐⭐⭐ 问题定义→理论→算法→实验的逻辑链极其完整
价值: ⭐⭐⭐⭐ 为多模态模型的增量训练提供了理论基础