Confidence Self-Calibration for Multi-Label Class-Incremental Learning¶
会议: ECCV2024
arXiv: 2403.12559
作者: Kaile Du, Yifan Zhou, Fan Lyu, Yuyang Li, Chen Lu, Guangcan Liu (东南大学, 中科院自动化所)
领域: graph_learning
关键词: multi-label class-incremental learning, confidence calibration, graph convolutional network, max-entropy regularization, partial label
一句话总结¶
针对多标签类增量学习(MLCIL)中部分标签导致的过度自信预测和假阳性错误问题,提出 Confidence Self-Calibration (CSC) 框架,通过类增量图卷积网络(CI-GCN)校准标签关系 + 最大熵正则化校准置信度,在 MS-COCO 和 VOC 上大幅超越 SOTA。
背景与动机¶
多标签类增量学习(MLCIL)的核心挑战是任务级部分标签问题:在每个增量任务中,只有当前任务的新类被标注,过去和未来的类标签均缺失。这导致新旧标签空间天然隔离(disjoint)。
现有方法(如 AGCN、KRT)忽视了一个关键现象:模型在部分标签设定下输出过度自信的预测分布,产生大量假阳性(false-positive)错误。例如,测试图像中只有"person",但模型对旧类"dog"也输出了很高的置信度。随着标签空间不断增大,这种过度自信问题会加剧灾难性遗忘。
作者动机很清晰:既然问题出在置信度校准上,就应该从标签关系校准和置信度校准两个层面同时解决。
核心问题¶
- 标签关系断裂:部分标签设定下,无法获取完整的标签共现统计,跨任务标签关系难以构建
- 置信度过度自信:模型在缺失标签情况下容易混淆新旧类特征,输出分布呈多峰过度自信状态,精确率远低于召回率,假阳性率居高不下
- 灾难性遗忘加剧:以上两点相互叠加,使旧类性能严重退化
方法详解¶
整体框架 CSC¶
CSC 包含两大组件:
(一)Class-Incremental Graph Convolutional Network (CI-GCN) — 标签关系校准
CI-GCN 是一个两层堆叠的 GCN 结构,不依赖先验统计信息:
-
General GCN:使用可学习的 general correlation matrix (CM) \(A_g\),通过梯度更新自动学习跨任务标签关系。\(A_g\) 分为旧任务部分 \(A_g^{1:t-1}\)(继承自前任务,保留旧标签关系)和新任务部分 \(A_g^t\)(建立新标签空间关系)。关键创新在于 CM 通过梯度下降联合使用真实标签和伪标签更新,避免了固定统计矩阵的误差累积问题。
-
Specific GCN:从 General GCN 的输出 \(V_1\) 自适应生成每张图像独有的 specific CM \(A_s\)。具体做法是对 \(V_1\) 做全局池化和卷积得到全局特征 \(v\),拼接后通过卷积层计算 \(A_s = \sigma(V_1' W)\)。这提供了样本级别的细粒度标签关系。
图节点 \(V_0\) 由 CNN 骨干提取的特征图 \(F\) 和类激活图 \(M\) 解耦得到:\(V_0 = M^\top \otimes F\)。两层 GCN 计算:
(二)Max-Entropy Regularization — 置信度校准
观察到模型输出分布过度自信(低熵),作者用 Shannon 熵量化旧类预测的不确定性:
训练时取负号实现最大熵正则化,惩罚过度自信的输出分布:
其中 \(L_{\text{cls}}\) 结合了交叉熵(新类)和知识蒸馏(旧类),\(\beta\) 控制正则化强度。最终预测融合分类器输出和图表示:\(\hat{y}^t = \hat{y}_{\text{cls}}^t + \hat{y}_{\text{gcn}}^t\)。
设计亮点¶
- General CM 可学习而非统计固定,避免伪标签累积误差
- Specific CM 为每张图像自适应生成,处理罕见标签组合更灵活
- 两种 CM 随类数增加自动扩展,无需手动调整
- 最大熵正则化仅作用于旧类,定向减少假阳性
实验关键数据¶
MS-COCO 2014¶
| 设定 | 方法 | Buffer | Last mAP | CF1 | OF1 |
|---|---|---|---|---|---|
| B0-C10 | KRT (SOTA) | 0 | 65.9 | 55.6 | 56.5 |
| B0-C10 | CSC | 0 | 72.8 | 64.9 | 66.8 |
| B0-C10 | KRT-R | 5/class | 68.3 | 60.0 | 61.0 |
| B0-C10 | CSC-R | 5/class | 73.7 | 67.3 | 68.1 |
| B0-C10 | CSC-R | 20/class | 74.8 | 67.8 | 68.6 |
无 buffer 的 CSC (72.8%) 甚至超过了 KRT-R 使用 20/class buffer 的结果 (70.2%)。
PASCAL VOC 2007¶
| 设定 | 方法 | Buffer | Last mAP | Avg. mAP |
|---|---|---|---|---|
| B0-C4 | KRT-R | 2/class | 83.4 | 90.7 |
| B0-C4 | CSC-R | 2/class | 87.9 | 92.4 |
| B4-C2 | AGCN-R | 2/class | 59.3 | 74.3 |
| B4-C2 | CSC-R | 2/class | 86.6 | 90.4 |
CSC-R 在最困难的 B4-C2 场景中比 AGCN-R 高出 27.3%,展现出极强的鲁棒性。
消融实验¶
| 组件 | mAP (B0-C10) | CF1 | OF1 |
|---|---|---|---|
| Baseline (KD only) | 42.4 | 45.3 | 43.7 |
| + Max-Entropy | 47.6 | 50.3 | 49.5 |
| + CI-GCN | 69.3 | 59.0 | 59.5 |
| + 两者结合 (CSC) | 72.8 | 64.9 | 66.8 |
CI-GCN 贡献最大(mAP +26.9%),Max-Entropy 在此基础上再提升 3.5%。Max-Entropy 将假阳性率从 35% 降至 19%。
CM 结构消融¶
G → S (Softmax) 组合最优(mAP 72.8%),优于固定统计 CM 的 Z → Z (64.1%),验证了可学习 CM 的优势。
亮点¶
- 问题洞察深刻:首次明确指出 MLCIL 中过度自信输出分布和假阳性错误的关联,并从校准角度提出解决方案
- CI-GCN 设计精巧:General + Specific 双层结构从宏观到细粒度校准标签关系,且 CM 可学习扩展,避免统计误差累积
- 最大熵正则简洁有效:仅需一个额外正则项就能显著降低假阳性率(35% → 19%),且对不同方法具有正交提升效果
- 实验结果压倒性:无 buffer 的 CSC 甚至超越有 20/class buffer 的 SOTA
- 鲁棒性强:在不同场景(步长大小)间性能波动极小
局限性 / 可改进方向¶
- 仅在 MS-COCO (80类) 和 VOC (20类) 上验证,未测试更大规模数据集(如 Open Images)
- 骨干网络基于 CNN (TResNetM),未探索 Vision Transformer 架构下 CI-GCN 的适配
- 最大熵正则仅作用于旧类,对新类的置信度校准未做探讨
- General CM 的随机初始化可能影响首个任务的性能,可探索更好的初始化策略
- 类增量顺序固定为字典序,对随机/困难优先排序的敏感性未分析
与相关工作的对比¶
| 方法 | 标签关系建模 | 置信度校准 | 核心思路 |
|---|---|---|---|
| AGCN | 固定统计 CM + 伪标签 | 无 | 用伪标签构建固定图 |
| KRT (前 SOTA) | 知识恢复与迁移 token | 无 | old/new knowledge token 框架 |
| CSC (本文) | 可学习双层 CM (CI-GCN) | Max-Entropy 正则 | 标签关系校准 + 置信度校准 |
与 KRT 相比,CSC 的优势在于:(1) CM 通过梯度学习而非统计固定,适应性更强;(2) 显式解决了 KRT 忽略的置信度过度自信问题。与 L2P (ViT-B/16, 86M 参数) 相比,CSC 用更少参数 (TResNetM, 29.4M) 取得更好结果。
启发与关联¶
- 校准视角的普适性:过度自信问题普遍存在于增量学习中,Max-Entropy 思路可迁移到单标签 CIL、语义分割增量学习等任务
- 可学习图结构:CI-GCN 中 CM 通过梯度学习的设计思路可推广到其他需要动态构建关系图的场景
- 与 Focal Loss 的互补:Focal Loss 聚焦难样本,Max-Entropy 正则化聚焦校准,两者可能具有互补性
- 与 label smoothing 的对比:两者都在调节输出分布的"锐度",但 Max-Entropy 直接优化信息熵,理论上更直接
评分¶
- 新颖性: ⭐⭐⭐⭐ (校准视角切入 MLCIL 有新意,CI-GCN 设计合理)
- 实验充分度: ⭐⭐⭐⭐⭐ (多数据集、多场景、详细消融、可视化齐全)
- 写作质量: ⭐⭐⭐⭐ (问题阐述清晰,图表丰富)
- 价值: ⭐⭐⭐⭐ (MLCIL 方向重要推进,校准思路具有启发性)