跳转至

📚 AI Paper Notes

Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation

Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation¶

会议: CVPR2025
arXiv: 2603.12538
代码: 待确认
领域: segmentation
关键词: 参考图像分割, 混合专家, 专家路由, 参数高效微调, 视觉语言模型, DINOv2, CLIP

一句话总结¶

提出 SERA 框架，在预训练视觉语言模型中引入轻量级表达感知的混合专家（MoE）精细化，分别在 backbone 层（SERA-Adapter）和融合层（SERA-Fusion）进行专家路由，仅更新 <1% 参数即在参考图像分割基准上达到 SOTA。

背景与动机¶

参考图像分割（RIS）需要根据自然语言表达生成像素级掩码，既要理解语言又要定位视觉目标
预训练视觉语言模型（如 CLIP + DINOv2）提供了强大的语义对齐能力，但冻结 backbone 时视觉表征难以针对不同的参考表达做适应性调整
不同参考表达需要不同类型的推理：有的依赖空间关系，有的依赖视觉外观，有的依赖上下文线索
现有方法多采用统一的精细化策略，对所有样本使用相同处理路径，无法匹配多样化的推理需求
典型失败模式：碎片化区域、边界泄漏、歧义表达下选错目标

核心问题¶

如何在冻结预训练 backbone 的参数高效设置下，根据参考表达的不同推理需求，自适应地选择合适的视觉特征精细化策略？

方法详解¶

SERA 由两个互补模块组成，均采用 MoE 机制：

1. SERA-Adapter（Backbone 层级精细化）¶

插入到 DINOv2 选定 transformer 块的前馈残差路径中
流程: 线性投影 → 空间网格重塑 → 多尺度卷积丰富（1×1, 3×3, 5×5 并行分支）→ 专家精细化 → 跨模态注意力 → 残差更新
两个专家:
边界专家: 深度可分离 3×3 卷积 + 缩放残差（β=0.1），增强轮廓敏感响应
空间专家: 深度可分离 3×3 卷积 + BN + ReLU + 缩放残差（α=0.3），增强局部特征一致性
软路由: 对空间 token 全局平均池化 → 线性投影 → softmax 得到两个专家的权重 ws, wb
通过跨模态注意力与文本嵌入对齐后残差注入 backbone

2. SERA-Fusion（融合层级精细化）¶

在视觉-语言融合阶段对中间空间特征图进行精细化
四个专家:
空间专家: 注入归一化坐标网格（1×1 卷积投影）提供显式位置信息
上下文专家: 基于自注意力的上下文聚合，捕获长程空间依赖
边界专家: 固定 Sobel 算子提取水平/垂直梯度 + 1×1 卷积融合梯度幅值
形状专家: 深度模糊 + 拉普拉斯滤波结合低频平滑与高频结构线索
稀疏 Top-K 路由: 全局平均池化 → 两层 MLP 预测路由 logits → 训练时加高斯噪声 → Top-k 选择 + softmax 归一化

3. 防止专家塌缩的策略¶

SERA-Adapter 用软路由（稳定 backbone 适配），SERA-Fusion 用稀疏 Top-k 路由（鼓励专家化）
辅助正则化: logit 平方惩罚 + 负载均衡（变异系数平方）+ token 分配正则化
Z-loss 惩罚路由 logits 的均方幅值

4. 参数高效训练¶

DINOv2 和 CLIP 编码器全部冻结
仅更新 LayerNorm 和 bias 参数，影响 backbone 不到 1% 的参数

实验关键数据¶

在 RefCOCO / RefCOCO+ / G-Ref 三个标准基准上（mIoU）:

数据集	val	testA	testB
RefCOCO	76.5	78.2	73.7
RefCOCO+	70.4	74.4	62.8
G-Ref(u)	68.8/68.9
G-Ref(g)	66.6
平均	71.1

平均 mIoU 71.1，超越 DETRIS-B（70.4）、RISCLIP-B（70.6）等方法
在 RefCOCO+ val 上达到 70.4，在需要排除绝对空间词的更难设置下优势更明显
注意是在冻结 backbone 仅更新 bias/LN 的极端参数高效设置下达成

消融实验¶

仅加 SERA-Adapter：RefCOCO val +0.45、RefCOCO+ val +0.72、G-Ref(g) +0.64
加 SERA-Adapter + SERA-Fusion（完整 SERA）：RefCOCO val +1.60、RefCOCO+ val +1.70、G-Ref(g) +1.52
Top-K 路由中 K=1 性能最差，K=4 综合最优；K>2 后增益递减
训练环境：单卡 NVIDIA A6000，batch size 16，Adam 优化器，初始学习率 1e-4

亮点¶

首次将 MoE 引入参考图像分割: 在 backbone 和融合两个阶段分别设计了互补的专家路由机制
极致的参数效率: 仅更新 <1% backbone 参数即达到甚至超越全量微调方法
精心的路由稳定策略: 软路由 vs 稀疏路由在不同阶段的差异化设计，有效防止专家塌缩
四种互补专家设计: 空间/上下文/边界/形状四类专家覆盖 RIS 所需的不同视觉线索
零样本跨数据集泛化: 在 RefCOCO 系列间展示了良好的迁移能力

局限性 / 可改进方向¶

专家数量和类型是手工设计的（2+4），可探索自动化专家架构搜索
Top-k 中 k 的选择需要调参，不同数据集可能有不同最优 k
仅在 RefCOCO 系列上验证，缺少更多样化的 RIS 基准（如 PhraseCut）
融合层的上下文专家引入自注意力，计算量相对其他专家更大
未探索与更大 backbone（如 ViT-L/ViT-G）的组合效果

与相关工作的对比¶

vs. DETRIS: SERA 基于 DETRIS 构建，通过引入 MoE 将平均 mIoU 从 70.4 提升到 71.1
vs. LAVT/CRIS: 这些传统全量微调方法在 RefCOCO 上仅 72.7/70.5，远低于 SERA 的 76.5
vs. VATEX: VATEX 在 RefCOCO val 上达到 78.2（全量微调），SERA 在仅更新 <1% 参数时达到 76.5
vs. V-MoE: V-MoE 将 MoE 用于图像分类扩展性，SERA 首次将 MoE 专家路由用于密集像素级的参考分割

启发与关联¶

MoE 在密集预测任务中的应用值得进一步探索，不仅限于 RIS，也适用于语义分割、全景分割
边界/空间/上下文/形状四类专家的设计思路可推广到语义分割、实例分割等任务
软路由 vs 稀疏路由的差异化策略对其他使用 MoE 的场景有参考价值
极致参数高效下的性能提升说明预训练模型包含丰富但需要被"激活"的信息
SERA-Adapter 的"投影→空间网格→多尺度卷积→专家精细化→跨模态注意力"流水线设计清晰，可作为通用的 adapter 范式
Sobel/Laplacian 等传统算子与可学习模块的结合（边界/形状专家）体现了先验知识融合的有效性

评分¶

新颖性: ⭐⭐⭐⭐ (MoE 在 RIS 中首次系统性应用)
实验充分度: ⭐⭐⭐⭐ (三大基准 + 消融 + 零样本泛化)
写作质量: ⭐⭐⭐⭐ (结构清晰，专家设计有理论动机)
价值: ⭐⭐⭐⭐ (为参数高效的密集预测提供新思路)