Dual-Imbalance Continual Learning for Real-World Food Recognition¶

会议: CVPR 2026
arXiv: 2603.29133
代码: GitHub
领域: Continual Learning / Food Recognition
关键词: 持续学习, 双重不平衡, 适配器合并, 长尾分布, 食物识别

一句话总结¶

提出 DIME 框架，通过类别计数引导的光谱适配器合并和秩自适应阈值调制机制，在双重不平衡（类内长尾分布 + 步间类别数不均匀）的持续学习场景下，在四个长尾食物数据集上持续超越 baseline 3% 以上。

研究背景与动机¶

真实世界的食物识别系统需要持续学习新的菜品类别。这种场景存在双重不平衡：

类别不平衡（Class Imbalance）：食物数据天然呈长尾分布，少数常见食物（如米饭、汉堡）样本量大，大量小众菜品样本稀少

步骤不平衡（Step Imbalance）：不同增量学习步骤引入的类别数量差异显著——现有方法假设每步引入相似数量的类别，但实际中某些阶段可能引入大量新菜品，某些阶段只有少量

这两种不平衡的叠加效应尚未被充分研究。双重不平衡导致的核心挑战是不对称学习动态：头部类别和大步骤提供稳定梯度，而尾部类别和小步骤产生噪声大、方差高的更新，容易干扰已学习表征。

方法详解¶

整体框架¶

DIME 基于预训练 ViT 骨干网络，采用参数高效微调策略： 1. 每个学习步骤训练一个轻量级 MLP 适配器 2. 使用 Balanced Softmax 处理类内长尾分布 3. 训练完成后，将新适配器通过光谱合并策略整合到累积基础适配器中 4. 推理时仅使用单个合并后的适配器，无需维护多个任务特定模块

关键设计¶

Balanced Softmax 训练：
- 功能：在 softmax 中加入类别频率先验，平衡类间贡献
- 核心思路：调整后的 logit \(\tilde{z}_y = z_y + \log \pi_y\)，其中 \(\pi_y\) 是类别 \(y\) 的经验频率
- 设计动机：防止标准 CE 损失被头部类别主导，确保尾部类别获得公平的学习机会
类别计数引导的光谱合并（Class-Count Aware Spectral Merging）：
- 功能：在共享 SVD 空间中合并新旧适配器
- 核心思路：
  - 将基础适配器 \(M_B\) 和新适配器 \(M_t\) 沿列拼接后做 SVD：\(X = [M_B \ M_t] = U\Sigma V^\top\)
  - 在对齐空间中按类别比例加权混合：\(w_b = \frac{C_{\text{old}}}{C_{\text{old}}+C_{\text{new}}}\)，\(w_t = \frac{C_{\text{new}}}{C_{\text{old}}+C_{\text{new}}}\)
  - \(V_{\text{blend}}^\top = w_b V_B^\top + w_t V_t^\top\)
- 设计动机：直接参数平均会导致不同步骤间的破坏性干涉；SVD 对齐确保更新沿一致的主方向交互；类别权重防止少量新类的噪声更新覆盖大量旧知识
秩自适应阈值调制（Rank-Wise Threshold Modulation）：
- 功能：按奇异值方向的重要性差异化调制更新幅度
- 核心思路：
  - 奇异值较大的方向对应主导视觉模式（如常见颜色、纹理），应保持稳定
  - 奇异值较小的方向对应细节变化，可以更灵活地吸收新知识
  - 定义门控掩码：前 \(r_h\) 个方向用 \(\gamma_{\text{head}}\)（小值），其余用 \(\gamma_{\text{tail}}\)（大值）
  - \(V_{\text{final}}^\top = V_B^\top + G \odot \Delta V^\top\)
- 设计动机：大步骤通常产生强主导方向，小步骤贡献弱但可能有用的变化；一刀切的合并会在两个方向上都不够灵活

损失函数 / 训练策略¶

骨干网络冻结（ViT-B/16 预训练于 ImageNet-21K），仅训练适配器参数和分类头
适配器使用 MLP 结构，隐藏维度 64
SGD 优化器，学习率 0.07，权重衰减 0.0005，批大小 16，训练 20 个 epoch
步骤不平衡通过指数衰减序列 \(s_t = \rho^{(t-1)/(T-1)}\) 控制，随机置换避免人为课程效应

实验关键数据¶

主实验¶

数据集	指标 (\(A_T\))	DIME	TUNA (最强baseline)	提升
VFN186-LT	Last Acc	69.07%	66.19%	+2.88%
VFN186-Insulin	Last Acc	69.40%	66.28%	+3.12%
VFN186-T2D	Last Acc	69.88%	67.32%	+2.56%
Food101-LT	Last Acc	77.01%	75.00%	+2.01%

在极端不平衡（\(\rho=0.001\)）下优势更明显：VFN186-LT 上 DIME 69.33% vs TUNA 66.60%（+2.73%），Food101-LT 上 78.13% vs 74.02%（+4.11%）。

消融实验¶

配置	\(A_T\)	\(wA\)	说明
Base (直接合并+等权+CE)	66.73%	74.90%	基线
+ SM (光谱合并)	67.20%	74.95%	SVD 对齐减少冲突
+ CCW (类别权重)	67.95%	76.68%	步骤不平衡感知
+ RTM (阈值调制)	68.68%	77.67%	选择性保护主导方向
+ BSM (Balanced Softmax)	69.31%	78.07%	处理类内长尾

关键发现¶

双重不平衡的影响是真实且显著的：不平衡越严重（\(\rho\) 越小），DIME 优势越大
各组件贡献清晰且互补：SM/CCW/RTM/BSM 每一步都带来稳定提升
推理效率优秀：DIME 推理时间 (9.50s) 和 FLOPs (33.73G) 与最轻量的 ACMap 持平，但精度高出约 4%
大任务保护好，小任务不牺牲：在任务大小分析中，DIME 在大/中/小任务上均表现最佳或接近最佳
超参数不敏感：\(r_h\)、\(\gamma_{\text{head}}\)、\(\gamma_{\text{tail}}\) 在合理范围内性能稳定

亮点与洞察¶

问题定义精准：提出"双重不平衡"概念，首次系统地研究类别不平衡和步骤不平衡的叠加效应
设计哲学优雅：在 SVD 对齐空间中进行合并，用秩自适应门控实现"重要方向保稳定、次要方向留灵活"
实用性强：推理时仅维护单个合并适配器，无存储和选择开销
引入加权平均精度 \(wA\)：更公平地评估步骤不平衡下的整体性能——传统 \(\bar{A}\) 会被少类别的简单步骤拉高

局限与展望¶

仅在食物识别领域验证，是否推广到其他长尾持续学习场景（如医学影像、自动驾驶）尚未验证
SVD 分解增加了合并阶段的计算开销（虽然仅在步骤切换时执行一次）
未探索与排练（rehearsal）策略的结合可能——与 exemplar memory 结合或许能进一步提升
适配器维度固定为 64，未研究不同容量的适配器对不同规模步骤的适应性
仅使用 ViT-B/16 骨干，未验证更大骨干（如 ViT-L）上的效果

评分¶

新颖性: ⭐⭐⭐⭐ — 双重不平衡设定和秩自适应合并有创新，但各组件均有前身
实验充分度: ⭐⭐⭐⭐⭐ — 四个数据集、多个不平衡比、完整消融、效率对比、敏感性分析
写作质量: ⭐⭐⭐⭐ — 问题形式化严谨，符号一致
价值: ⭐⭐⭐⭐ — 解决了一个实际且被忽视的问题，方法具有推广潜力