Object-level Correlation for Few-Shot Segmentation¶

会议: ICCV 2025
arXiv: 2509.07917
代码: 无
领域: segmentation
关键词: few-shot segmentation, object-level correlation, prototype learning, optimal transport, hard pixel noise

一句话总结¶

提出 OCNet，通过模仿生物视觉过程构建目标级别（而非图像级别）的 support-query 关联，先挖掘查询图像中的通用物体，再从中识别目标物体，有效抑制背景中的无关物体噪声。

研究背景与动机¶

少样本语义分割（FSS）的核心在于构建 support 目标和 query 图像之间的关联。现有方法主要建立图像级别关联（support 目标 ↔ 整个 query 图像），存在以下问题：

Hard pixel noise：关联中包含无关背景物体（如真实背景物体、基类物体、无关新类物体） 2. 一些后处理方法（如 BAM、ABCB）试图消除部分噪声，但仍无法处理无关新类物体（如 query 图中同时出现狗和人，但只需分割狗） 3. 在多新类物体共现时，图像级关联难以准确识别目标

生物视觉启发：人类视觉系统先以预注意方式计算全局显著性（找到通用物体），然后基于任务线索从中选择目标。目标识别在通用物体中比在整幅图像中更有效。

方法详解¶

整体框架¶

OCNet 由两个核心模块组成： 1. GOMM（General Object Mining Module）：从 query 图像中挖掘通用物体特征 2. CCM（Correlation Construction Module）：在 support 目标和 query 通用物体之间建立目标级关联

流程：预训练骨干提取特征 → GOMM 生成通用物体特征 \(F_g\) → CCM 利用 support 原型与 \(F_g\) 构建目标级关联 \(F_c\) → FPN 解码器预测

关键设计¶

GOMM - 通用物体挖掘模块：
- 通用物体掩码生成：由于无 query ground truth，使用 CAM 获取原始通用物体掩码，融合 support-query 高层特征余弦相似度先验，通过阈值 \(\tau=0.6\) 分割： \(M_g = \mathbb{1}_\tau(\text{Max}(\text{Cosine}(F_q^h, F_s^h) \oplus \text{CAM}(F_q^h)))\)
- 初始通用物体特征：随机初始化通用物体原型 \(P_g \in \mathbb{R}^{N_g \times C}\)，与 query 特征计算余弦相似度分配，拼接后 1×1 卷积生成 \(F_{ig}\)
- 信息补全：通过交叉注意力融合 \(F_{ig}\) 和 \(F_q\)：\(F_g = \text{Atten}(F_q, F_{ig}, F_{ig}) + F_q\)
- 设计动机：通用物体掩码虽不完美，但适度不完整有利于原型的泛化和重建能力
CCM - 关联构建模块：
- Support 原型获取：使用多频率池化（MFP）从 support 特征生成原型 \(P_s \in \mathbb{R}^{L \times C}\)（\(L=49\)）
- 前景/背景原型选择：通过欧氏距离比较原型激活掩码 \(M_{sp}\) 与真实掩码 \(M_s\) 的相似性，TopK 为前景原型索引 \(ID_t\)，LowK 为背景原型索引 \(ID_l\)
- 最优传输分配：将原型分配建模为 OT 问题，使用 Sinkhorn 算法（\(\epsilon=0.05\)）求解最优传输矩阵 \(T^*\)，生成原型分配掩码 \(M_{pa}\)
- 关联构建：用分配掩码监督原型分配，通过矩阵乘法融合 support 和 query 信息，得到目标级关联 \(F_c = \text{Alloc}(P_q, \text{Argmax}(\hat{M}_{pa})) \oplus F_g\)
- 设计动机：前景原型捕获目标信息，背景原型主动抑制噪声像素（之前方法忽略了背景原型的作用）
前景+背景原型双重机制：
- 与之前 FPTrans 等只用前景原型不同，CCM 同时利用背景原型
- 前景原型负责激活目标区域，背景原型负责抑制 hard pixel noise
- 通过分配掩码将二者统一在最优传输框架下
- 设计动机：抑制噪声与增强目标同等重要

损失函数 / 训练策略¶

总损失由三部分组成：\(\mathcal{L}_f = \mathcal{L}_t + \mathcal{L}_g + \mathcal{L}_p\) - \(\mathcal{L}_t = \text{CE}(\hat{M}_q, M_q)\)：目标分割损失 - \(\mathcal{L}_g = \text{CE}(\hat{M}_g, M_g)\)：通用物体分割损失 - \(\mathcal{L}_p = \text{CE}(\hat{M}_{pa}, M_{pa})\)：原型分配损失

训练配置：SGD 优化器，lr=0.005，batch size=4；PASCAL-5^i 训练 200 epochs，COCO-20^i 训练 75 epochs；图像裁剪到 473×473（PASCAL）或 641×641（COCO）。

实验关键数据¶

主实验 (表格)¶

PASCAL-5^i 1-shot/5-shot（ResNet-50）：

方法	1-shot Mean mIoU	1-shot FB-IoU	5-shot Mean mIoU	5-shot FB-IoU
BAM (CVPR'22)	67.8	79.7	70.9	82.2
AENet (ECCV'24)	69.8	80.8	74.1	84.5
ABCB (CVPR'24)	70.6	-	73.6	-
HMNet (NeurIPS'24)	70.4	81.6	74.1	84.4
OCNet	71.4	82.2	74.5	84.7

COCO-20^i 1-shot/5-shot（ResNet-50）：

方法	1-shot Mean mIoU	1-shot FB-IoU	5-shot Mean mIoU	5-shot FB-IoU
AENet (ECCV'24)	49.4	73.6	56.7	76.5
ABCB (CVPR'24)	50.0	-	55.1	-
OCNet	51.5	73.7	57.0	76.8

消融实验 (表格)¶

GOMM 和 CCM 模块消融（PASCAL-5^i, 1-shot, ResNet-50）：

GOMM	CCM	Fold 0	Fold 1	Fold 2	Fold 3	Mean
✗	✗	67.5	73.4	66.5	61.6	67.3
✓	✗	69.9	74.2	68.3	63.9	69.1
✗	✓	71.9	74.7	69.8	63.0	69.9
✓	✓	73.5	75.9	71.1	64.9	71.4

GOMM 单独贡献 +1.8% mIoU
CCM 单独贡献 +2.6% mIoU
组合贡献 +4.1% mIoU，说明两模块互补有效

关键发现¶

目标级关联相比图像级关联在所有设定下均更优，证明了"先找物体再识别目标"策略的有效性
背景原型的引入对抑制 hard pixel noise 至关重要（之前方法忽略了这一点）
通用物体掩码虽然不完美，但适度不完整反而有利于原型泛化
在 COCO-20^i 等更具挑战性的数据集上，OCNet 的优势更加明显
VGG-16 和 ResNet-50 两种骨干均取得一致提升

亮点与洞察¶

生物视觉启发：模仿人类"显著性→目标选择"的两阶段视觉处理过程，将抽象的认知过程转化为可计算的模块
从图像级到目标级的范式转变：不再将整个 query 图像与 support 匹配，而是先提取通用物体再精准对应
前景+背景原型双重机制：利用背景原型主动抑制噪声，而非仅被动过滤
最优传输建模分配：将原型到像素的分配建模为 OT 问题，获得全局最优的分配方案

局限与展望¶

CAM 生成的通用物体掩码质量不稳定，有时可能遗漏重要目标
最优传输求解增加了计算开销，Sinkhorn 迭代次数需要权衡
仅在 PASCAL-5^i 和 COCO-20^i 上验证，未在更多领域（如医学、遥感）测试
当 query 图像中只有单个物体时，目标级关联的优势可能不如多物体场景明显
未与最新的基于大规模预训练模型（如 SAM）的方法比较

评分¶

新颖性: ⭐⭐⭐⭐ 从图像级到目标级关联的转变有创意，生物视觉启发合理
实验充分度: ⭐⭐⭐⭐ 双数据集、双骨干、充分消融，定性分析清晰
写作质量: ⭐⭐⭐⭐ 动机阐述清楚，方法描述详细，图示信息丰富
价值: ⭐⭐⭐⭐ 提供了 FSS 领域新的思路，但提升幅度有限（~1-2% mIoU）