Cs2K: Class-Specific and Class-Shared Knowledge Guidance for Incremental Semantic Segmentation¶
会议: ECCV2024
arXiv: 2407.09047
代码: 待确认
领域: segmentation
关键词: Incremental Semantic Segmentation, Class-specific Knowledge, Class-shared Knowledge, Prototype, Catastrophic Forgetting
一句话总结¶
提出 Cs2K 框架,从类别特有知识(原型引导伪标签 + 原型引导类别适应)和类别共享知识(权重引导选择性整合)两个方面协同缓解增量语义分割中的灾难性遗忘与新类欠拟合问题。
背景与动机¶
增量语义分割(ISS)需要模型在学习新类别的同时保持对旧类别的分割能力。现有方法存在两类偏差:
- 缺乏类别特有知识引导:仅依赖旧模型权重(类别共享知识),无法针对性地纠正旧类别的决策边界,导致模型偏向新类别
- 对类别共享知识约束不加区分:等权融合或约束全部旧模型权重,导致模型偏向旧类别,新类别学习不足
核心矛盾在于:不同训练步骤的数据集中类别分布差异巨大(每步只包含当前前景类的标注),旧类像素被标记为背景,造成类别过度表示和决策边界剧烈变化。
核心问题¶
如何同时利用类别特有知识(旧类原型)和类别共享知识(旧模型权重)来平衡新旧类别性能,在无需存储旧样本的前提下克服灾难性遗忘?
方法详解¶
整体框架¶
Cs2K 包含三个核心模块,前两个从类别特有知识角度出发,第三个从类别共享知识角度出发:
1. Prototype-guided Pseudo Labeling(原型引导伪标签,PPL)¶
目的:利用旧类原型纠正背景中被错误分类的旧类像素,生成高质量伪标签。
- 在 \(t{-}1\) 步结束时计算每个旧类的原型 \(\eta_c\)(该类所有像素特征的均值)
- 对当前步 \(t\) 的背景像素,计算其特征与各旧类原型的相似度权重 \(\kappa_{i,c}^t\)(基于特征距离的 softmax)
- 将相似度权重与旧模型输出概率相乘得到修正概率,用于纠正伪标签:
- 若 GT 为前景类 → 直接使用 GT
- 若 GT 为背景且修正概率指向某旧类 → 伪标签设为该旧类
- 否则 → 伪标签为背景
- 利用生成的伪标签通过交叉熵损失 \(\mathcal{L}_{pl}\) 更新模型
关键设计:原型不受离群点影响,且对不同出现频率的类别一视同仁,因此比直接用旧模型预测更可靠。
2. Prototype-guided Class Adaptation(原型引导类别适应,PCA)¶
目的:通过增强旧类原型参与训练,维持旧类与新类之间的可区分性。
包含两种增强策略:
- Self-prototype Augmentation(自增强):\(\Gamma_c = \eta_c + \mu \cdot s^t\),其中 \(\mu \sim \mathcal{N}(0,1)\),\(s^t\) 是根据类别数量加权的动态缩放因子,帮助模型探索特征空间
- Inter-prototype Augmentation(互增强):\(\Pi_c = \lambda \cdot \eta_c + (1{-}\lambda) \cdot \eta_{c'}\),对不同旧类原型做 Mixup 插值,增强类间判别力
增强后的原型送入分类器,以交叉熵损失 \(\mathcal{L}_{pa}\) 联合训练,使分类器在没有旧样本的情况下仍能维持旧类决策能力。
3. Weight-guided Selective Consolidation(权重引导选择性整合,WSC)¶
目的:在模型权重层面选择性整合新旧模型,兼顾新旧知识。
- 用 Fisher 信息量计算旧模型每个参数对旧类的重要性 \(F_i^{t-1}\)
- 按重要性排序,选择 Top-\(\beta\) 比例的重要权重进行加权融合:\(\Theta_i^t = \omega \cdot \Theta_i^{t-1} + (1{-}\omega) \cdot \Theta_i^t\)
- 其余权重直接使用新模型参数
- \(\beta\) 和 \(\omega\) 均为动态因子,根据新旧类数量比自适应调整:
- \(\beta\) 通过 sigmoid 函数设计,旧类越多则保留越多重要权重
- \(\omega\) 通过幂函数设计,控制旧权重的约束强度
总损失¶
训练结束后再执行 WSC 整合权重。整个方法是即插即用的,可与 MiB、PLOP 等基线方法组合使用。
实验关键数据¶
Pascal VOC 2012¶
| 方法 | 15-1 (all) | 10-1 (all) | 5-3 (all) |
|---|---|---|---|
| MiB | 32.2 | 12.6 | 46.7 |
| PLOP | 54.6 | 30.5 | 28.7 |
| MiB+EWF | 65.5 | 37.3 | 51.8 |
| PLOP+EWF | 67.0 | 51.9 | 47.7 |
| MiB+Cs2K | 68.0 | 39.3 | 56.2 |
| PLOP+Cs2K | 70.4 | 61.5 | 54.8 |
- 在 10-1(11步,最具挑战性)场景下,PLOP+Cs2K 比 PLOP+EWF 高 9.6% mIoU
- 在新类上提升尤为明显:15-1 新类提升 13.7%,10-1 新类提升 16.9%
ADE20K¶
- 100-10 场景:MiB+Cs2K 达 34.1 mIoU,PLOP+Cs2K 达 35.4 mIoU,均超越对应 EWF 变体
- 100-5 场景:MiB+Cs2K 达 34.2 mIoU,比 MiB+EWF 高 2.1%
消融实验(15-1 场景)¶
| 去除模块 | mIoU (all) | 下降幅度 |
|---|---|---|
| 去除 PPL | 65.3 | -5.1 |
| 去除 PCA | 68.7 | -1.7 |
| 去除 WSC | 48.6 | -21.8 |
| 完整 Cs2K | 70.4 | - |
WSC 贡献最大(-21.8),说明权重层面的选择性整合是性能的核心保障。
亮点¶
- 双知识协同框架:首次系统地结合类别特有知识和类别共享知识,是该方向的早期探索
- 原型引导伪标签纠正:利用原型距离加权修正旧模型的伪标签,比仅依赖旧模型预测或熵阈值过滤更鲁棒
- 选择性权重整合:基于 Fisher 信息选择重要参数融合而非等权约束全部参数,避免了新类学习不足
- 即插即用设计:可直接应用于 MiB、PLOP 等已有方法之上
- 动态超参数:\(\beta\)、\(\omega\)、\(s^t\) 均根据增量步骤自适应调整,无需手动调参
局限性 / 可改进方向¶
- 与 Joint Training 仍有差距:在长序列任务中性能仍不及联合训练上界,作者在结论中明确提及
- 原型质量依赖于前一步:原型在 \(t{-}1\) 步结束时计算并冻结,若前一步模型质量差,原型也会有偏差
- Fisher 信息计算开销:需要额外前向传播计算所有参数的 Fisher 信息,增加了训练成本
- 未考虑域偏移:若不同步骤的数据存在域差异(不仅是类别差异),当前原型方法可能失效
- 缺乏对大规模/更多步骤场景的验证:最多测试了 ADE20K 150 类,未在更大规模数据集上验证
与相关工作的对比¶
- vs. EWF:EWF 等权融合所有旧新模型权重,不区分参数重要性;Cs2K 用 Fisher 信息选择性融合重要参数,并额外引入原型层面的知识引导
- vs. PLOP:PLOP 仅用多尺度特征蒸馏约束表示一致性;Cs2K 在此基础上增加了原型引导的伪标签纠正和权重选择性整合
- vs. RCIL / GSC:这些方法在不同场景下表现不稳定;Cs2K 在所有场景下均有稳定提升
- vs. Rehearsal-based 方法(ALIFE 等):不需要存储旧样本,保护数据隐私,仅用轻量级原型代替
启发与关联¶
- 原型增强策略值得在其他增量学习场景中借鉴,如增量目标检测、增量实例分割
- 选择性权重整合的思路可推广到模型合并(Model Merging)领域,根据任务重要性选择性融合参数
- 伪标签纠正中"距离加权 × 概率"的范式适用于任何需要在缺少标注时利用原型进行标签修复的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统结合两类知识,各模块设计合理
- 实验充分度: ⭐⭐⭐⭐ — VOC 和 ADE20K 多场景评测,消融完整
- 写作质量: ⭐⭐⭐⭐ — 分类清晰,动机阐述明确
- 价值: ⭐⭐⭐⭐ — 即插即用框架对 ISS 社区有实际参考价值