跳转至

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

会议: CVPR 2026
arXiv: 2603.17520
代码: https://github.com/NUST-Machine-Intelligence-Laboratory/PCA-Seg
领域: 语义分割
关键词: 开放词汇分割, 成本聚合, 并行架构, 特征正交解耦, 部件分割

一句话总结

PCA-Seg 重新审视开放词汇语义和部件分割中的成本聚合机制,提出并行成本聚合范式替代现有的串行架构,通过专家驱动感知学习(EPL)模块高效整合语义和上下文流,并用特征正交解耦(FOD)策略降低两种知识流的冗余,每个并行块仅增加0.35M参数即在8个基准上达到SOTA。

研究背景与动机

  1. 领域现状:开放词汇语义和部件分割(OSPS)方法(如CAT-Seg、DeCLIP、PartCATSeg)通常从CLIP视觉-文本特征构建成本体积(cost volume),然后通过串行的空间聚合和类别聚合提取对齐信息。
  2. 现有痛点:串行架构中空间聚合和类别聚合的级联行为导致"知识干扰"——先进行空间聚合会扭曲类别语义,后续类别聚合进一步放大这种偏差,导致误分类(如将卡车误分为跑道)。
  3. 核心矛盾:类别级语义和空间结构信息本应沿两个独立维度表示,但串行处理使一种信息的聚合触发另一种的连锁反应。
  4. 本文目标:设计并行架构使两种聚合独立运行,消除知识干扰,同时高效融合两种知识流。
  5. 切入角度:发现直接并行化的baseline反而微降0.2%,因此关键在于如何高效整合并行产出的两种知识。
  6. 核心 idea:并行执行空间和类别聚合→EPL多视角融合→FOD正交约束确保知识多样性。

方法详解

整体框架

PCA-Seg 基于 CLIP 的视觉和文本编码器,通过 Hadamard 积构建成本体积 \(\mathcal{S}\)。成本体积同时通过空间聚合和类别聚合产生空间上下文特征 \(\mathcal{B}_n\) 和类别语义特征 \(\mathcal{E}_n\)。EPL模块从两个流中提取多视角互补知识,FOD策略约束两个流正交以促进多样性学习。

关键设计

  1. 专家驱动感知学习模块 (EPL):

    • 功能:从并行的语义流和上下文流中提取互补知识并融合
    • 核心思路:包含两个组件——多专家解析器(ME-Parser)从多个视角综合两种聚合结果提取互补特征;系数映射器(Co-Mapper)对语义和空间特征做降维学习,生成像素级权重系数,自适应加权专家解析的特征。多专家设计使模型从不同角度理解同一对象。
    • 设计动机:简单的并行化不够,需要专门的融合机制从两个独立知识流中挖掘互补信息
  2. 特征正交解耦策略 (FOD):

    • 功能:降低语义流和上下文流之间的冗余
    • 核心思路:设计正交解耦损失将两个流产生的特征的余弦相似度约束为零:\(\mathcal{L}_{FOD} = |\cos(\mathcal{B}_n, \mathcal{E}_n)|\)。强制两种表示正交后,EPL模块可以从更广的特征空间中学习更多样化的知识。
    • 设计动机:非正交状态下两种特征仍有相关性,正交约束从知识源层面确保EPL提取更多元的知识
  3. 并行成本聚合范式:

    • 功能:替代串行架构,消除知识干扰
    • 核心思路:将原来 \(\mathcal{V}_{n+1} = \Gamma_n(\Phi_n(\mathcal{V}_n))\) 的串行结构改为并行:空间聚合和类别聚合各自独立处理成本体积,产出分别送入EPL融合。每个并行块仅增加0.35M参数和0.96G GPU内存。
    • 设计动机:串行结构的级联效应是知识干扰的根源,解耦为并行可从根本上消除问题

损失函数 / 训练策略

  • 分割交叉熵损失 + FOD正交解耦损失
  • 端到端微调CLIP注意力层
  • 支持开放词汇语义分割(OVSS)和开放词汇部件分割(OVPS)

实验关键数据

主实验

基准 PCA-Seg 之前SOTA 提升
A-150 (语义) SOTA DeCLIP/H-CLIP 显著
PC-459 (语义) SOTA DeCLIP 显著
Pascal-Part-116 (部件) SOTA PartCATSeg 显著
ADE20K-Part-234 (部件) SOTA PartCATSeg 显著
8个基准整体 全部SOTA - 全面领先

消融实验

配置 mIoU (A-150) 说明
串行基线 基线 CAT-Seg串行架构
简单并行 -0.2% 直接并行反而略降
+ EPL +提升 专家融合有效
+ FOD +0.9% 正交约束进一步促进多样性
Full PCA-Seg SOTA 全部组件协同工作

关键发现

  • 直接并行化效果微降证明了融合机制(EPL)的必要性
  • FOD正交约束在A-150上带来0.9%的mIoU提升
  • 每个并行块仅0.35M额外参数,参数效率极高
  • 可视化显示PCA-Seg激活了更细粒度的信息

亮点与洞察

  • 对成本聚合中知识干扰的分析很有说服力:串行处理的级联效应导致语义偏差被放大的可视化案例直观
  • 正交解耦作为知识多样性保障是一个简单但有效的设计,可迁移到任何双流架构
  • 极低的参数增量(0.35M/块)使其在实际部署中几乎无额外成本

局限与展望

  • EPL中多专家的数量需要手动设置
  • FOD的硬正交约束可能过于严格,某些场景下语义和空间信息可能需要适度耦合
  • 未探索在更大规模VLM上的效果

相关工作与启发

  • vs CAT-Seg/DeCLIP: 串行聚合架构的直接改进,并行化消除知识干扰
  • vs PartCATSeg: 在部件分割上同样适用并行聚合范式,验证了方法的通用性

评分

  • 新颖性: ⭐⭐⭐⭐ 并行聚合+正交解耦的思路简洁有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个基准上全面验证
  • 写作质量: ⭐⭐⭐⭐ 动机分析清晰,可视化有说服力
  • 价值: ⭐⭐⭐⭐ 为开放词汇分割提供了更好的成本聚合范式

相关论文