Learning from the Web: Language Drives Weakly-Supervised Incremental Learning for Semantic Segmentation¶
会议: ECCV 2024
arXiv: 2407.13363
代码: https://github.com/dota-109/Web-WILSS
领域: 语义分割 / 增量学习
关键词: weakly-supervised, incremental learning, web images, vision-language model, catastrophic forgetting
一句话总结¶
首次提出完全使用网络图像(而非精心设计的数据集图像)进行弱监督增量语义分割,通过傅里叶域判别器筛选网络图像 + caption 驱动的 rehearsal 策略保持旧类知识,在 PASCAL VOC 15-5 设定下达到 73.4% mIoU。
研究背景与动机¶
领域现状:语义分割的类增量学习(CILSS)允许模型逐步学习新类别,但传统方法依赖昂贵的像素级标注。弱监督增量学习(WILSS)将增量步骤的标注降低为图像级标签,但仍要求使用精心策划的数据集图像。
现有痛点:(1) WILSON、FMWISS 等 WILSS 方法仍需要从目标数据集中获取训练图像;(2) 现有方法在多步单类增量(如 15-1)设定下性能严重退化;(3) 不支持仅使用单类新数据的增量步骤,需要负样本。
核心矛盾:实际场景中,预训练模型需要适应新类时,目标域数据可能极度有限(如隐私限制),此时从网络获取补充数据是必然选择。但网络数据面临两个关键挑战:(1) 分布与训练数据不同;(2) 图像级标签噪声严重(用类名搜索的图片可能包含多个类或不含目标类)。
本文目标:在增量步骤中完全使用网络图像(而非数据集图像)学习新类,同时也用网络图像做旧类 rehearsal 防止灾难性遗忘。
切入角度:(1) 用傅里叶域特征做域判别器筛选与训练数据分布接近的网络图像;(2) 用 caption 模型替代简单的类名标签提供多类监督;(3) 保存 caption 而非图像来查询旧类 rehearsal 图像,解决隐私和存储问题。
核心 idea:傅里叶域判别器 + caption 驱动的网络图像选择和 rehearsal ,实现无需原始数据集的弱监督增量分割。
方法详解¶
整体框架¶
基于 WILSON 框架(共享编码器 \(E^t\) + 分割解码器 \(D^t\) + 定位器 \(L^t\)),本文在增量步骤中将数据源从数据集图像替换为网络图像。两条并行的数据管线:(1) 新类学习管线:用类名从网络搜索图像 → 傅里叶域判别器筛选 → caption 模型提供多标签监督;(2) 旧类保持管线:用之前保存的 caption 从网络搜索图像 → caption 重生成+语义过滤 → 伪标签训练。
关键设计¶
-
傅里叶域判别器 (Fourier Domain-based Discriminator)
- 功能:筛选与原始训练数据分布相似的网络图像
- 核心思路:在初始步骤(\(t=0\))训练一个 EfficientNet-B0 判别器 \(M_D\),输入为图像的傅里叶变换幅度谱 \((p_{ds}, p_{web}) = M_D(|\mathcal{F}(\mathbf{x})|)\),其中 \(p_{ds}\) 为属于原始数据集的概率。仅当 \(p_{ds}/p_{web} > 1\) 时保留该网络图像
- 设计动机:傅里叶域的幅度谱在不同类别间的统计特性更一致(主要反映风格/纹理而非语义),因此在初始步骤训练的判别器可以在后续步骤(新类未见)中仍然有效。相比像素域判别,傅里叶域对类别变化更鲁棒
-
Caption 标注 (Caption Labeling)
- 功能:用视觉语言模型为网络图像提供多类图像级标签,替代简单的搜索关键词标签
- 核心思路:用 OpenFlamingo 模型生成图像描述 \(w = M_{CAP}(\mathbf{x})\),然后将描述中的名词与预定义的类名词汇表 \(\mathcal{W}^c\)(含同义词、复数等)匹配:若 \(\exists w_i \in w : w_i \in \mathcal{W}^c\) 则 \(y^c = 1\)
- 设计动机:用类名搜索的网络图像可能包含多个类(如搜索"boat"得到"一个人站在船上"的图片),简单的单标签监督会导致错误;caption 可以同时识别 person 和 boat,提供正确的多标签。还能识别并丢弃不含目标类的图片
-
Caption 驱动的 Rehearsal 查询 (Caption-based Querying)
- 功能:存储旧图像的 caption 而非图像本身,用 caption 从网络搜索相似图像做 rehearsal
- 核心思路:初始步骤中为所有训练图像生成 caption 并保存。增量步骤中用这些 caption 作为搜索查询从网络下载图像:\(\mathcal{X}_r^{web} = \{\mathbf{x} = \mathcal{D}^{web}(q') | q' = M_{CAP}(\mathbf{x}) : \mathbf{x} \in \mathcal{X}\}\)
- 设计动机:(1) 存储 caption 比存储图像节省存储且避免隐私问题;(2) 用 caption 搜索的图像包含更丰富的语义内容(多个类共现),比仅用类名搜索的图像更接近原始分布
-
Caption 驱动的 Rehearsal 过滤 (Caption-based Filtering)
- 功能:验证下载的 rehearsal 图像是否包含原始图像的核心语义内容
- 核心思路:对下载图像重新生成 caption \(q''\),提取两个 caption 的前两个名词 \((n_1', n_2')\) 和 \((n_1'', n_2'')\)(用 Penn TreeBank 句法分析),利用 WordNet 提取各名词的上位词构建向量描述符 \(v\),计算余弦相似度。若任一名词对的相似度超过阈值 \(T=0.6\) 则保留
- 设计动机:基于 caption 搜索不保证内容匹配,需要二次验证。使用 WordNet 语义层级而非精确匹配,允许同义/上下位词的灵活匹配(如 dog/animal)
损失函数 / 训练策略¶
- 损失函数:\(\mathcal{L} = \mathcal{L}_{SEG} + \mathcal{L}_{CLS} + \mathcal{L}_{KDE} + \mathcal{L}_{KDL}\)
- \(\mathcal{L}_{SEG}\):像素级分割损失(伪标签监督)
- \(\mathcal{L}_{CLS}\):图像级分类损失(多标签软间隔损失)
- \(\mathcal{L}_{KDE}\):编码器特征蒸馏损失(\(E^t\) 与 \(E^{t-1}\) 的 MSE)
- \(\mathcal{L}_{KDL}\):定位器与旧模型的一致性损失
- 伪标签生成:合并定位器预测、旧模型预测,新类用定位器、旧类用旧模型
- 网络设置:DeeplabV3 + ResNet-101(VOC)/ Wide-ResNet-38(COCO);SGD,初始步骤 30 epochs,增量步骤 40 epochs
- 网络数据:每类下载 10K 候选 → 筛选 500 用于训练;rehearsal 每个 caption 下载 20 张,保留 100 张
实验关键数据¶
主实验(PASCAL VOC 单步多类设定)¶
| 方法 | 训练数据 | Rehearsal | 15-5 Disjoint All | 15-5 Overlap All | 10-10 Disjoint All | 10-10 Overlap All |
|---|---|---|---|---|---|---|
| WILSON | VOC | - | 67.3 | 67.2 | 60.8 | 65.0 |
| RaSP | VOC | - | - | 70.0 | - | 65.9 |
| FMWISS | VOC | VOC(50) | 70.7 | 73.3 | 64.6 | 69.1 |
| Ours | VOC | WEB(100) | 71.1 | 73.3 | 61.7 | 65.7 |
| Ours | VOC | WEB(500) | 72.0 | 73.4 | 61.0 | 65.3 |
| WILSON | WEB | - | 68.9 | 67.8 | 58.6 | 62.1 |
| Ours | WEB | WEB(100) | 70.5 | 71.7 | 60.4 | 65.3 |
消融实验¶
| 配置 | 15-5 Overlap All | 说明 |
|---|---|---|
| Baseline WILSON (WEB) | 67.8 | 网络图像无筛选无 caption |
| + 傅里叶域判别器 | 68.4 | +0.6,域筛选有效 |
| + Caption 标注 | 69.5 | +1.7,多标签监督关键 |
| + Caption Rehearsal | 71.7 | +3.9,旧类保持效果显著 |
关键发现¶
- 完全使用网络图像(训练+rehearsal 都来自网络)可以达到接近使用原始数据集的性能(71.7 vs 73.4 在 15-5 overlap),证明了网络数据的可行性
- Caption 标注的贡献最大(+1.7),说明网络图像的多类共现问题是核心挑战
- 傅里叶域判别器在仅初始步骤训练后可以推广到新类的域筛选
- 更多 rehearsal 图像(500 vs 100)在使用原始数据集时有帮助,但在纯网络数据设定下反而略差——网络数据质量不稳定,多不如精
- Caption 查询的 rehearsal 图像比类名查询包含更丰富的语义上下文
亮点与洞察¶
- 首个完全基于网络的 WILSS 框架:将增量学习的数据需求从精心策划的数据集降低到仅需类名,极大拓展了实际应用范围(如隐私敏感场景、新域适配)。Web+Web 设定下仍能达到合理性能是实用价值的关键证明。
- Caption 作为轻量级记忆载体:用 caption 替代图像存储做 rehearsal 是巧妙的设计——存储成本几乎为零、无隐私风险,通过搜索+过滤重建出包含正确语义上下文的多样化图像。
- 傅里叶域的跨类泛化:利用幅度谱的风格/纹理统计特性(不依赖语义内容)实现跨类别的域判别,初始步骤训练一次即可终身使用。
局限与展望¶
- 网络图像的质量和多样性受搜索引擎限制,不同引擎/不同语言查询可能差异很大
- Caption 模型(OpenFlamingo)的描述质量直接影响标注和查询效果,错误 caption 会引入噪声
- 傅里叶域判别器对极端分布偏移(如从自然场景到医学图像)可能失效
- 多步单类增量(15-1 设定)的性能仍有较大下降,长步骤序列下累积误差问题待解决
- 目前仅验证了 PASCAL VOC 和 COCO,更多样的数据集评估尚缺
相关工作与启发¶
- vs WILSON: WILSON 是本文的基础框架,但需要数据集图像;本文用网络图像替代后在 15-5 设定下从 67.3 提升到 71.1-72.0(有 VOC)、从 68.9 提升到 70.5(纯 WEB)
- vs FMWISS: FMWISS 依赖 DINO+MaskCLIP 提供像素级伪监督且需要 VOC 图像做 rehearsal;本文仅用图像级标签和网络图像,在 15-5 disjoint 上超越(72.0 vs 70.7)
- vs RECALL: RECALL 是首个在 CILSS 中使用网络数据的方法,但仅用于旧类 rehearsal 且使用像素级伪标签;本文同时用于新类学习和旧类保持,且纯弱监督
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次提出完全基于网络的WILSS设定,傅里叶域判别器和caption rehearsal都有新意
- 实验充分度: ⭐⭐⭐⭐ VOC和COCO双数据集,多种增量设定(15-5/10-10/15-1),消融完整
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法流程图直观
- 价值: ⭐⭐⭐⭐ 降低增量分割的数据门槛有实际意义,网络数据利用范式值得关注
相关论文¶
- [ECCV 2024] LASS3D: Language-Assisted Semi-Supervised 3D Semantic Segmentation with Progressive Unreliable Data Exploitation
- [ECCV 2024] Cs2K: Class-Specific and Class-Shared Knowledge Guidance for Incremental Semantic Segmentation
- [ECCV 2024] Early Preparation Pays Off: New Classifier Pre-tuning for Class Incremental Semantic Segmentation
- [CVPR 2026] FCL-COD: Weakly Supervised Camouflaged Object Detection with Frequency-aware and Contrastive Learning
- [CVPR 2025] Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation