Auto-Vocabulary Semantic Segmentation¶

会议: ICCV 2025
arXiv: 2312.04539
代码: 即将公开
领域: 分割 / 开放词汇 / VLM
关键词: auto-vocabulary segmentation, open-vocabulary, BLIP, zero-shot, LLM evaluator

一句话总结¶

本文提出 Auto-Vocabulary Semantic Segmentation (AVS) 新任务，通过 AutoSeg 框架自动从图像中发现目标类别并分割，无需人为指定词汇表，在 PASCAL VOC 上达到 87.1 mIoU，远超唯一同类方法 ZeroSeg (20.1)，甚至超越部分需要指定类别的开放词汇方法。

研究背景与动机¶

领域现状：语义分割方法已从闭集（固定类别）发展到开放词汇分割（OVS），后者利用 CLIP 等 VLM 能处理任意文本指定的类别。但 OVS 仍需"人在回路"——用户要么在运行时指定词汇表，要么方法在人工标注数据集上训练时"烘焙"了固定的输出类别。

现有痛点：(a) 需要人工指定每张图像应分割哪些类别，限制了可扩展性；(b) 想象厨房机器人需要区分各种工具和食材——不可能每次抓取都要人提供类名；(c) 固向文本查询式方法（如 LISA）对多类别场景需要多次推理，效率极低。

核心矛盾：VLM（CLIP、BLIP）训练在图像级别特征上，缺乏局部区域精细推理能力，直接用于精确分割边界困难；而让模型自动发现"应该分割什么"是比"分割指定类别"更难的问题。

本文目标 (a) 消除分割流程中的人工干预，让模型自主识别图像中所有相关类别；(b) 评估自动生成的类别与标注类别的匹配——同义词、层级关系让离散类别比较困难。

切入角度：BLIP 的 patch embedding 天然具有局部语义信息，可以聚类后解码为文字描述——这等价于自动化的局部图像 captioning——然后用生成的类名去驱动 OVS 分割器。

核心 idea：用 BLIP 特征聚类+解码生成图像特定词汇表，再作为自引导输入 OVS 模型完成无人干预的语义分割。

方法详解¶

整体框架¶

AutoSeg 流程：输入图像 → BLIP 编码器提取 patch embedding → 多分辨率多 k 值聚类 → CRF + 多数滤波去噪 → BLIP 解码器将各聚类解码为文本 → 提取名词构建词汇表 → 词汇表输入 X-Decoder（OVS 模型）→ 输出语义分割 mask。评估时通过 LAVE（LLM-based 评估器）将自动类别映射到 ground truth 类别。

关键设计¶

BBoost（Bootstrapped BLIP-based Vocabulary Generation）:
- 功能：从图像中自动发现所有相关的目标类别名称
- 核心思路：(a) BLIP ViT 编码器将图像分为 patch embedding \(\hat{\mathbf{B}} \in \mathbb{R}^{N \times d}\)；(b) 对两种分辨率（384×384, 512×512）分别运行 \(k \in \{2,...,8\}\) 的 k-means，得到 14 组聚类；(c) 通过 Hungarian 匹配统一各组聚类索引，为每个 patch 计算属于各聚类的概率分布；(d) CRF 去噪 + 多数滤波进一步提纯聚类边界；(e) 将每个聚类对应的 patch embedding 集合送入 BLIP text decoder 解码出描述文本
- 设计动机：BLIP 虽然在图像级训练，但其 patch embedding 天然保留了局部语义——聚类后可以"局部 captioning"——这是一个被发现的涌现能力（emergent capability）
- 与 ZeroSeg 的区别：ZeroSeg 需要 DINO 聚类+CLIP embedding+自定义注意力+GPT-2 共四个模型，AutoSeg 只用 BLIP 一个模型同时做聚类和 captioning
Cross-clustering Consistency（跨聚类一致性）:
- 功能：统一多次 k-means 的聚类结果
- 核心思路：选最多聚类的一组为参考集 \(S\)，其余组通过 IoU 计算+Hungarian 匹配对齐聚类索引，每个 patch 获得一个聚类概率分布 \(P(n|p)\)
- 设计动机：单次 k-means 噪声大，多次聚类做 ensemble 降低方差，同时自适应聚类数量（支持弱的聚类自然消失）
LAVE（LLM-based Auto-Vocabulary Evaluator）:
- 功能：将自动生成的类别映射到标注数据集的固定类别以计算 mIoU
- 核心思路：使用 Llama-2-7B，输入所有自动生成类名和目标数据集类名，LLM 根据语义关系（同义词、上下位词）进行映射
- 设计动机：传统余弦相似度匹配（如 Sentence-BERT）会出现 "taxi→road" 而非 "taxi→car" 的错误，LLM 能处理复杂语义关系

损失函数 / 训练策略¶

AutoSeg 完全无需训练或微调——BLIP 和 X-Decoder 均使用预训练权重。超参数通过贝叶斯优化在 VOC 上调优：CRF 平滑权重 6、平滑 θ=0.8、位置编码维度 256、nucleus sampling top-P=1、重复惩罚 100。

实验关键数据¶

主实验¶

Auto-Vocabulary 设置对比（自动生成词汇表 vs ground truth 词汇表）：

方法	VOC mIoU	PC mIoU	ADE mIoU	CS mIoU
AutoSeg (Ours)	87.1	11.7	6.0	30.0
ZeroSeg	20.1	11.4	-	-
LLaVA+X-Decoder	56.7	11.4	-	23.4
SAM+BLIP+X-Decoder	41.1	11.3	-	27.4
LLaVA+LISA	7.7	0.2	-	1.5

与 OVS 方法对比（OVS 方法使用 ground truth 类名作为输入）：

方法	需要词汇表	VOC	PC	ADE	CS
CAT-Seg	✗	97.2	19.0	13.3	-
X-Decoder	✗	96.2	16.1	6.4	50.8
AutoSeg	✓ (自动)	87.1	11.7	6.0	30.0
OVSeg	✗	94.5	11.0	9.0	-
OpenSeg	✗	72.2	9.0	8.8	-

消融实验¶

配置	VOC c-mIoU	PC c-mIoU	ADE c-mIoU	CS c-mIoU
AutoSeg (完整)	71.8	47.7	29.2	35.8
X-Decoder+BLIP	38.0	35.3	26.7	29.2
BBoost Embeddings only	16.3	16.3	11.3	0.85

关键发现¶

AutoSeg 在 VOC 上 87.1 mIoU，达到最佳 OVS 方法（97.2）的 91%——而完全无需指定类名
在 VOC 和 PC 上超过了 OpenSeg、ODISE、OVSeg 等需要指定类名的 OVS 方法
AutoSeg 发现的类别数远多于标注类别（VOC 938 vs 20, ADE 1578 vs 847），能识别标注中缺失的细粒度类别（如 hawk、coke、dachshund）
LAVE 映射与人工映射结果差异极小（VOC: 87.1 vs 88.2），证明 LLM 评估器可靠

亮点与洞察¶

BLIP patch embedding 的涌现能力：发现 BLIP 虽然只在图像级 captioning 上训练，但 patch embedding 聚类后送入 decoder 可以做局部 captioning——这是一个令人惊喜的涌现特性，极具启发
多分辨率多 k 值 ensemble：通过 14 组聚类做 ensemble 消除单次 k-means 的噪声，比单次聚类稳定很多，思路可迁移到任何使用聚类的场景
自引导范式（Self-Guidance）：用自身生成的词汇表引导分割，避免了外部输入依赖，是真正的端到端无人干预系统
LAVE 评估器：用 LLM 做词汇映射解决了自动生成类别与标注类别的语义匹配难题，比余弦相似度鲁棒得多

局限与展望¶

在类别极多的数据集（ADE 847 类、CS）上性能较弱，仍有提升空间
BBoost 有时会遗漏非显著物体（背景区域），captioning 训练偏向前景目标
依赖 X-Decoder 的分割质量——如果 OVS 模型开始支持更多类别，AutoSeg 的上限也会更高
Captioning 轮数的最优值依赖数据集特性，缺乏自适应策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个真正无需人工输入的自动词汇语义分割框架，BLIP 涌现特性的发现很启发
实验充分度: ⭐⭐⭐⭐ 四个数据集+多种消融+OVS对比，但缺少一些 failure case 分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，AVS vs OVS 的对比图很直观
价值: ⭐⭐⭐⭐⭐ 消除"人在回路"是分割领域的重要进步，LAVE 评估框架可复用