An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning¶

会议: CVPR 2026
arXiv: 2211.16780
代码: 无
领域: 持续学习 / 在线增量学习
关键词: 在线类增量学习, 最优传输, 高斯混合模型, 灾难性遗忘, 潜空间建模

一句话总结¶

提出基于最优传输理论的在线混合模型框架（MMOT），为每个类别维护多个自适应质心来表征流式数据的多模态分布，结合动态保持策略缓解灾难性遗忘，在 OCIL 场景显著超越现有方法。

研究背景与动机¶

领域现状：在线类增量学习（OCIL）是持续学习中最具挑战性的场景——数据分布动态变化，模型每批数据只能更新一次，推理时无任务 ID。现有方法通常使用单一分类头或单个质心表征每个类别。
现有痛点：单个自适应质心无法捕捉类别数据流的多模态特性（一个类可能包含多个聚类）；GMM 方法虽用多质心但训练后固定不更新。
核心矛盾：模型骨干网络不断适应新数据导致特征漂移，而固定质心无法跟随漂移——训练和测试的潜在表征之间存在明显偏移。
本文目标：在线学习过程中动态更新多质心，同时保持类间可分性和类内紧凑性。
切入角度：借助 OT 理论的连续性和几何敏感性替代传统 EM 算法。OT 可微分、数值稳定、尊重数据几何结构。
核心 idea：用 Wasserstein 距离熵正则化对偶形式最小化经验分布与 GMM 距离，质心通过梯度下降在线增量更新，Gumbel-Softmax 实现混合比例可微分采样。

方法详解¶

整体框架¶

输入新类数据批次 \(X\) 和缓冲区旧类数据 \(\bar{X}\)，经特征提取器 \(f_\theta\) 得到潜在表征。流程三步：(1) CE 损失初步分离类别；(2) MMOT 框架为每个类学习多个自适应质心；(3) 动态保持策略强化类别区分。推理时利用 Mahalanobis 距离分类。

关键设计¶

MMOT（多模态最优传输框架）:
- 功能：为每个类别在线学习多个自适应质心和协方差矩阵
- 核心思路：对每个类 \(c\)，用 GMM \(\mathbb{Q}_c = \sum_{k=1}^K \pi_{k,c} \mathcal{N}(\mu_{k,c}, \text{diag}(\sigma_{k,c}^2))\) 近似其经验分布。通过最小化 Wasserstein 距离的熵正则化对偶形式学习 GMM 参数。重参数化技巧使采样可微分，Gumbel-Softmax 使混合比例采样也可微分。目标函数是期望形式，天然适合在线学习。
- 设计动机：EM 算法需多次迭代且计算昂贵不适合在线场景；KL 散度在分布支撑不重叠时不稳定。OT 提供连续可微、数值稳定的替代方案。
动态保持策略（Dynamic Preservation）:
- 功能：利用 MMOT 学到的多质心增强表征学习的类别区分能力
- 核心思路：对比学习式目标函数，分子鼓励样本特征靠近自身类的所有 \(K\) 个质心，分母推离其他类的质心和特征。使用温度参数 \(\tau\) 缩放相似度值。
- 设计动机：类边界上的质心特别有效地增强类间分离；多质心使信息表征更精确。
记忆缓冲区选择与推理策略:
- 功能：利用质心选代表性样本存入缓冲区，推理时用 Mahalanobis 距离分类
- 核心思路：对每个质心选最近样本加入缓冲区；推理时取测试样本到各类各高斯的 Mahalanobis 距离最小值。
- 设计动机：基于质心选择确保缓冲区样本多样化覆盖类别分布。

损失函数 / 训练策略¶

每个批次：CE 损失初步训练 → MMOT 更新质心（交替更新 Kantorovich 网络和 GMM 参数） → 动态保持策略 → 更新缓冲区。

实验关键数据¶

主实验¶

数据集	指标	OTC	BiC+AC (之前SOTA)	提升
CIFAR-10 (M=0.2k)	Avg Acc	64.8	63.5	+1.3
CIFAR-100 (M=2k)	Avg Acc	48.5	47.3	+1.2
CIFAR-100 (M=5k)	Avg Acc	56.5	54.2	+2.3
Tiny-ImageNet (M=5k)	Avg Acc	31.6	22.6	+9.0

消融实验¶

配置	关键指标	说明
基于质心选择缓冲区 (K=4)	75.9%	MMOT 质心选样本
随机选择缓冲区 (K=4)	73.4%	质心选择一致优于随机
质心数=1	71.6%	单质心性能最低
质心数=4	75.9%	最优质心数 (M=1k)

关键发现¶

缓冲区最小时 OTC 优势最显著，Tiny-ImageNet 领先高达 9 个百分点
CoPE 遗忘指标低是因为初始准确率就很低，实际表征学习质量差
增加质心数在合理范围内持续提升，过多则缓冲区无法支撑

亮点与洞察¶

OT 替代 EM 的巧妙设计：首次将 OT 用于 OCIL 中 GMM 学习，期望形式天然适合在线场景
统一框架：质心同时用于训练（动态保持）、推理（Mahalanobis 距离）和缓冲区选择，三环节紧密耦合
可迁移性：多质心+OT 的思路可迁移到其他需要在线表征学习的任务

局限与展望¶

仅在较小数据集验证，缺乏大规模（ImageNet-1k）实验
质心数 \(K\) 是固定超参数，不同类别可能需要不同数量
Kantorovich 网络增加额外计算开销，具体成本分析不够详细

评分¶

新颖性: ⭐⭐⭐⭐ 首次将 OT 用于 OCIL 的 GMM 学习，理论推导扎实
实验充分度: ⭐⭐⭐ 数据集规模偏小，消融充分但缺少大规模验证
写作质量: ⭐⭐⭐⭐ 动机清晰，公式推导完整，图表直观
价值: ⭐⭐⭐⭐ 为在线增量学习提供了新的理论工具