Personalized OVSS: Understanding Personal Concept in Open-Vocabulary Semantic Segmentation¶

会议: ICCV 2025
arXiv: 2507.11030
代码: 无
领域: 图像分割
关键词: 个性化分割, 开放词汇语义分割, 文本提示调优, 负掩码提案, 少样本学习

一句话总结¶

首次提出个性化开放词汇语义分割（Personalized OVSS）任务，设计基于文本提示调优的即插即用方法，通过"负掩码提案"抑制假阳性和视觉嵌入注入丰富个性化概念表征，仅用少量图像-掩码对即可识别用户感兴趣的特定物体实例，同时保持原有OVSS性能。

研究背景与动机¶

开放词汇语义分割（OVSS）可以用任意文本描述分割图像，但无法理解个人化概念——例如识别"我的杯子"需要区分它与其他杯子的不同。这在实际应用中极为关键：

OVSS的局限：现有OVSS模型设计用于区分不同类别（如杯子 vs 瓶子），而非区分同类别内的特定实例（"我的杯子"vs "其他杯子"）

少样本分割的不足：(a)不支持开放词汇分割——只能分割给定的目标类别；(b)不考虑在同类别物体中区分特定实例

个性化需求：机器人助手场景中，用户希望说"拿我的杯子"即可，无需每次提供详细描述

文本提示调优的假阳性问题：直接进行text prompt tuning虽能识别目标概念，但会把其他相似物体也误识别为个性化概念（如把所有鸟都识别为"我的鸟"）

核心动机：需要一种即插即用方法，仅用少量图像-掩码对学习个人视觉概念，同时保持对其他类别的正常分割能力。

方法详解¶

整体框架¶

在现成OVSS模型（如SAN、ODISE）基础上，新增三个轻量化组件： 1. 可学习文本嵌入 \(\textbf{T}_{\text{per}}\)（学习个性化概念） 2. 负掩码提案（抑制假阳性） 3. 视觉嵌入注入（丰富个性化表征）

关键设计¶

文本提示调优（Text Prompt Tuning）：
- 初始化一个可学习文本嵌入 \(\textbf{T}_{\text{per}} \in \mathbb{R}^{1 \times D}\)，用目标类别名的文本嵌入初始化（如"a photo of black footed albatross"）
- 拼接到原有词汇的文本嵌入 \(\textbf{T}_{\text{open}}\) 后：\(\textbf{T} = [\textbf{T}_{\text{open}}; \textbf{T}_{\text{per}}]\)
- 使用标准分割损失训练：\(\mathcal{L}_{seg} = \lambda_1\mathcal{L}_{dice} + \lambda_2\mathcal{L}_{bce} + \lambda_3\mathcal{L}_{cls}\)
- 关键发现：单纯文本提示调优提高了recall（能识别目标），但precision大幅下降（把其他类似物体也误识别为目标），即假阳性严重
- 设计动机：文本提示调优是最直接的个性化方法，但需要配合负掩码来控制假阳性
负掩码提案（Negative Mask Proposal）：
- 负掩码嵌入：通过对原有掩码嵌入的可学习线性组合得到 \(\textbf{Z}_{\text{neg}} = \textbf{W}_{\text{Z}} \textbf{Z}_{\text{open}}\)，\(\textbf{W}_{\text{Z}} \in \mathbb{R}^{1 \times N}\)
- 负掩码：通过可学习卷积层 \(\textbf{W}_{\text{M}}\) 从原有掩码提案生成 \(\textbf{M}_{\text{neg}} = \textbf{W}_{\text{M}} \textbf{M}_{\text{open}}\)
- 监督信号：
  - 负掩码嵌入学习均匀匹配除个性化概念外的所有词汇：\(\mathcal{L}^{\text{neg}}_{\text{Z}} = -\sum_{i \neq k} \frac{1}{V-1}\log S[i,j]\)
  - 负掩码以 \(1 - \textbf{M}_{\text{gt}}\) 为GT进行BCE监督：\(\mathcal{L}^{\text{neg}}_{\text{M}} = -(1-\textbf{M}_{\text{gt}})\log(\textbf{M}_{\text{neg}}) - \textbf{M}_{\text{gt}}\log(1-\textbf{M}_{\text{neg}})\)
- 拼接后：\(\textbf{Z} = [\textbf{Z}_{\text{open}}; \textbf{Z}_{\text{neg}}]\), \(\textbf{M} = [\textbf{M}_{\text{open}}; \textbf{M}_{\text{neg}}]\)
- 设计动机：显式学习"非目标区域"的表征，给模型提供反例信号；相比Yo'LLaVA需要收集大量负样本，本方法从已有掩码提案中自动生成负掩码，无需额外数据
视觉嵌入注入（Injection of Visual Embeddings）：
- 用CLIP图像编码器提取特征图 \(\textbf{F} = \textbf{I}_{\text{enc}}(\textbf{X})\)
- 用掩码提取目标区域特征并平均池化：\(\textbf{F}_{\text{per}} = \frac{1}{\sum \mathbb{1}(\textbf{M}'_{\text{gt}}=1)} \sum \textbf{F} \odot \textbf{M}'_{\text{gt}}\)
- 多张图像的 \(\textbf{F}_{\text{per}}\) 取平均
- 与文本嵌入插值融合：\(\textbf{T}_{\text{per}}^{vis} = \alpha \cdot \textbf{F}_{\text{per}} + (1-\alpha) \cdot \textbf{T}_{\text{per}}\)
- 设计动机：单模态（纯文本或纯视觉）的提示调优表征能力有限；文本-视觉联合能更好地编码个性化概念的细粒度外观特征

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{total} = \mathcal{L}_{seg} + \lambda^{\text{neg}}_{\text{Z}}\mathcal{L}^{\text{neg}}_{\text{Z}} + \lambda^{\text{neg}}_{\text{M}}\mathcal{L}^{\text{neg}}_{\text{M}}\)
仅训练 \(\textbf{T}_{\text{per}}\), \(\textbf{W}_{\text{M}}\), \(\textbf{W}_{\text{Z}}\) 三组参数，OVSS模型完全冻结
仅需200次迭代即可完成个性化训练
支持K=1,3,5张参考图像

实验关键数据¶

主实验¶

数据集	方法	IoU\(^{\text{per}}\) (K=5)	mIoU (K=5)	IoU\(^{\text{per}}\)提升
FSS\(^{\text{per}}\)	SAN	41.08	55.68	baseline
FSS\(^{\text{per}}\)	SAN + Ours	56.80	55.85	+15.72
CUB\(^{\text{per}}\)	SAN	68.25	77.32	baseline
CUB\(^{\text{per}}\)	SAN + Ours	76.80	78.29	+8.55
ADE\(^{\text{per}}\)	SAN	6.88	17.20	baseline
ADE\(^{\text{per}}\)	SAN + Ours	26.15	17.19	+19.27
FSS\(^{\text{per}}\)	ODISE + Ours	34.05	22.94	+23.36
ADE\(^{\text{per}}\)	ODISE + Ours	13.43	12.18	+12.19

消融实验¶

配置	mIoU	IoU\(^{\text{per}}\)	IoU\(^{\text{per}}_{\text{precision}}\)	IoU\(^{\text{per}}_{\text{recall}}\)	说明
无个性化	77.32	68.25	92.25	72.95	高precision低recall
+文本提示调优	77.89	69.70	74.75↓	91.04↑	recall升但precision剧降
+文本+负掩码	77.89	73.71	80.07↑	90.17	负掩码有效抑制假阳性
+文本+视觉注入	77.65	65.94	70.06↓	91.58↑	视觉注入进一步提升recall但precision更差
+文本+负掩码+视觉注入	78.29	76.80	84.51	89.07	三者协同最优

关键发现¶

负掩码是核心：文本提示调优导致precision从92.25暴跌至74.75，负掩码将其恢复至80.07
视觉注入需配合负掩码：单独使用视觉注入反而降低performance（65.94 < 68.25），但与负掩码结合后达到最佳（76.80）
mIoU基本不变：所有配置下原始OVSS性能（mIoU）保持在77-78之间，说明方法不损害原有能力
K=1也有效：仅1张参考图像就能提升IoU\(^{\text{per}}\)（SAN: 41.08→49.80），验证了实用性
跨模型一致性：在SAN和ODISE两个不同OVSS模型上均有显著提升

亮点与洞察¶

问题提出有价值：个性化OVSS是一个被忽视但实际需求强烈的任务方向，论文首次定义了完整的任务设置和评估体系
假阳性问题的发现和解决：深入分析了text prompt tuning导致假阳性的原因（precision/recall解耦分析），并用负掩码提案优雅解决
即插即用设计：方法可直接应用于任何现成OVSS模型（SAN、ODISE等），无需修改模型架构
极少参数量：仅需训练一个文本嵌入向量 + 两个线性层，200次迭代即可完成
基准建设贡献：建立了FSS\(^{\text{per}}\)、CUB\(^{\text{per}}\)、ADE\(^{\text{per}}\)三个新基准

局限与展望¶

当同类物体外观极其相似时（如只有微小logo差异的杯子），区分能力可能不足
评估基准主要基于FSS-1000和CUB-200，真实场景的复杂度可能更高
视觉嵌入注入使用简单的线性插值（\(\alpha\)固定），可探索更复杂的融合方式
未考虑多个个性化概念同时存在的情况
参考图像中的遮挡和视角变化对性能的影响未充分分析

评分¶

新颖性: ⭐⭐⭐⭐ 任务定义新颖且实用，负掩码提案设计巧妙
实验充分度: ⭐⭐⭐⭐ 两个模型+三个数据集+详细消融+定性分析，缺少与更多个性化方法的对比
写作质量: ⭐⭐⭐⭐ 问题阐述清楚，方法描述直观，图表有说服力
价值: ⭐⭐⭐⭐ 开辟了个性化OVSS新赛道，基准和方法都有参考价值