跳转至

A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties

会议: ECCV 2024
arXiv: 2312.13764
代码: https://github.com/lambert-x/ProLab
领域: 语义分割 / 开放词汇 / 语义空间构建
关键词: 属性级标签空间, LLM知识检索, 描述性属性, 可解释分割, K-Means聚类

一句话总结

ProLab 用 LLM 生成类别的常识性描述,通过句子嵌入和 K-Means 聚类将其压缩为 256 个可解释的描述性属性,构建属性级多热标签空间替代传统 one-hot 类别标签来监督分割模型,在五个经典基准上一致超越类别级监督且涌现出域外泛化能力。

背景与动机

传统语义分割模型(DeepLab、UperNet、SegFormer 等)使用 one-hot 类别标签空间,这种设计忽视了类别间的语义关联——"猫"和"狗"之间的语义距离与"猫"和"天空"是一样的。之前的解决方案要么手动合并标签、要么建模层次关系,但往往带来性能下降和扩展性问题。另一条路线是用 CLIP 文本编码器构建语义空间,但 CLIP 缺乏深层常识知识,且受图文配对数据长尾分布影响,对罕见场景表征不佳。核心矛盾在于:我们需要一个既能建模类间语义关联、又具备人类可解释性的标签空间。

核心问题

如何构建一个不依赖视觉-语言预训练的、可解释的语义空间,使分割模型能够学到类别间的语义关联?进一步地,这样的语义空间能否同时带来更强的闭集性能和开放域泛化能力?

方法详解

ProLab 的核心思想是:不直接教模型"这是猫",而是教它"这个区域有爪子、有毛、在公园出现"——即用一组可解释的描述性属性来替代类别标签。

整体框架

输入是 RGB 图像,输出是每个像素对 256 个描述性属性的激活向量(而非 N 个类别的概率)。推理时通过比较像素的属性激活与各类别的属性签名(多热向量)的余弦相似度来还原类别预测。整个流程分三步:(1) 从 LLM 提取类别描述 → (2) 用句子嵌入模型编码并聚类为属性集合 → (3) 用属性级多热标签监督分割模型。

关键设计

  1. LLM属性知识检索: 使用 GPT-3.5(也支持 LLAMA2-7B),通过精心设计的结构化 prompt 为每个类别生成统一格式的描述,涵盖形状、朝向、物理特征(材质、纹理、颜色)和常见关联环境。结构化 prompt 确保不同类别的描述在粒度和信息类型上对齐,这是后续聚类质量的关键。
  2. 描述嵌入与聚类: 用纯语言的句子嵌入模型(BGE-Sentence 或 Sentence Transformers)将所有描述编码为向量。这里有意不用 CLIP,因为句子嵌入模型通过对比学习训练、能更好地保留句子间的语义相关性。然后用 K-Means 将几千条描述聚类为 256 个"描述性属性",每个属性代表一组语义相近的描述(如"光滑有光泽的表面"、"毛皮覆盖"等)。
  3. 属性级监督与分类: 原来每个像素只有一个类别标签(one-hot),现在改为多热标签——一个像素属于"猫",就激活所有"猫"相关的属性。模型输出每个像素的嵌入 \(\mathbf{e}_i\),与属性嵌入库 \(\mathbf{E} \in \mathbb{R}^{d \times k}\) 相乘得到属性级 logits \(\mathbf{z}_i = \sigma(\mathbf{e}_i \mathbf{E})\)。推理时计算 \(c_i = \arg\max_j \text{sim}(\mathbf{y}_j, \mathbf{z}_i)\) 映射回类别。

损失函数 / 训练策略

  • 使用 余弦相似度损失 + sigmoid(优于 BCE 和不加 sigmoid 的余弦损失),sigmoid 温度设为 0.04
  • 训练大模型(ViT-L)时先用 one-hot 类别标签做 40K 步 warmup,再切换到属性级标签
  • 优化器 AdamW,学习率 6e-5,总 batch size 16,Poly学习率调度

实验关键数据

数据集 指标 本文(ProLab) 类别级基线 提升
ADE20K mIoU 49.0 48.4 +0.6
COCO-Stuff mIoU 45.4 43.1 +2.3
Pascal Context mIoU 58.2 53.3 +4.9
Cityscapes mIoU 81.4 79.9 +1.5
BDD mIoU 65.7 60.7 +5.0

SOTA 对比(ADE20K val): ProLab + ViT-L + BEiTv2 + 896分辨率 = 58.7 mIoU,可比 SwinV2-G (59.3) 但参数量仅为其 1/5。

泛化到其他框架: DeepLabv3+ (42.7→43.6), SegFormer (41.5→42.3),证明方法对架构不敏感。

开放词汇分割: ProLab + 线性探头在 PAS-20 上 92.5 mIoU, PC-59 上 57.7 mIoU,超越大量基于 CLIP 预训练的方法。

消融实验要点

  • 聚类数量: 256 最优 (48.3),64→47.8, 128→48.0, 512→47.6,约占描述总数 1/6~1/8 效果最佳
  • 嵌入模型: BGE-Base (768d) > BGE-Small (384d) > Sent.TR-Base > Sent.TR-Small,BGE 系列优于 Sentence Transformers
  • 文本编码器 vs 属性空间: BGE + 属性空间 (49.0) > CLIP + 类别空间 (48.6) > BGE + 类别空间 (47.7),说明属性空间本身是关键
  • LLM 选择: GPT-3.5 > LLAMA2-7B,结构化 prompt > 朴素 prompt(各贡献 ~0.5 和 ~0.2 mIoU)
  • 损失函数: 余弦相似度 + sigmoid (47.7) > BCE (47.4) > 余弦相似度不加 sigmoid (47.3)
  • 可扩展性: 随训练步数增加,ProLab 性能持续上升而类别级监督出现饱和/过拟合

亮点

  • 标签空间重新定义: 把"教模型认类别"转化为"教模型认属性",是一个非常优雅的 label space re-engineering 思路,使模型学习到更丰富的语义关联
  • 无需视觉-语言预训练: 整个语义空间仅用纯语言模型(LLM + 句子嵌入)构建,不依赖 CLIP 等图文预训练,成本更低且常识知识更丰富
  • 涌现泛化能力: 训练集里没有 PS5、AirPods、袋鼠(Quoll)等类别,但模型能通过已学到的属性组合("塑料和金属""电子设备")成功分割它们,这种从属性到未知类别的组合泛化非常有启发性
  • 可解释的分割: 模型不仅输出"猫",还能告诉你为什么——因为激活了"有爪子""有毛皮"等属性,这在需要可解释性的场景(医学、自动驾驶)有重要价值
  • 即插即用: 可以无缝集成到 DeepLabv3+、SegFormer、ViT-Adapter 等多种框架

局限性 / 可改进方向

  • 属性描述完全来自 LLM 的文本生成,没有视觉 grounding,可能存在"正确但视觉无关"的属性(如"通常在公园被发现"对像素级分割未必有用)
  • K-Means 聚类假设属性空间是球形的,对于语义嵌入空间可能不是最优选择;可以尝试层次聚类或基于图的聚类
  • 推理时需要额外的属性→类别映射步骤,增加了计算开销
  • 开放词汇实验仍依赖 ImageNet 预训练,与用大规模图文对预训练的方法(ODISE 等)相比不太公平
  • 未探索多数据集联合训练的场景,而属性空间天然适合跨数据集标签统一
  • 256 这个属性数量是否随数据集类别数线性增长?对超大规模标签空间(如 LVIS 1000+类)的扩展性未验证

与相关工作的对比

  • vs CLIP-based 方法 (LSeg, ZegFormer): ProLab 的语义空间来自纯语言 LLM 而非图文对齐模型,常识知识更丰富,不受图文配对数据长尾分布限制;但缺少视觉对齐可能在某些细粒度区分上不如 CLIP
  • vs 层次标签方法 (HSSN): 层次方法需要手动定义语义层级且往往掉点,ProLab 的属性空间自动从 LLM 生成,更灵活且性能更好
  • vs 属性学习 (ZSL 传统方法): 传统属性学习依赖人工定义的属性列表(如颜色、纹理),ProLab 自动从 LLM 提取并用聚类去冗余,规模化能力远强于手工设计

启发与关联

  • 这种"用可解释属性替代类别标签"的思路可以迁移到 3D 分割(点云/体素的属性级监督)或视频分割(时序一致的属性传播)
  • ideas/3d_vision/20260316_open_vocab_3d_occupancy.md 中的开放词汇3D占据预测 idea 有关——ProLab 的属性空间可以作为 3D 场景中开放词汇语义的构建方案
  • 属性聚类的思路可以用于多数据集训练中的自动标签统一——不同数据集的类别映射到同一属性空间
  • DALL-E 3 生成图像的评估非常有趣,说明属性级理解在跨域场景中比类别级更鲁棒

评分

  • 新颖性: ⭐⭐⭐⭐ 属性级标签空间替代类别空间是很好的 insight,但属性学习本身有较长历史
  • 实验充分度: ⭐⭐⭐⭐⭐ 五个数据集 + 三种框架 + 详尽消融 + 开放词汇 + 生成图像评估
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表丰富,附录的属性列表和类别对比分析增加了可信度
  • 价值: ⭐⭐⭐⭐ 对语义空间构建提供了新思路,涌现泛化能力有启发性,即插即用的特性增加了实用价值