Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation¶
会议: CVPR2025
arXiv: 2603.12538
代码: 待确认
领域: segmentation
关键词: 参考图像分割, 混合专家, 专家路由, 参数高效微调, 视觉语言模型, DINOv2, CLIP
一句话总结¶
提出 SERA 框架,在预训练视觉语言模型中引入轻量级表达感知的混合专家(MoE)精细化,分别在 backbone 层(SERA-Adapter)和融合层(SERA-Fusion)进行专家路由,仅更新 <1% 参数即在参考图像分割基准上达到 SOTA。
背景与动机¶
- 参考图像分割(RIS)需要根据自然语言表达生成像素级掩码,既要理解语言又要定位视觉目标
- 预训练视觉语言模型(如 CLIP + DINOv2)提供了强大的语义对齐能力,但冻结 backbone 时视觉表征难以针对不同的参考表达做适应性调整
- 不同参考表达需要不同类型的推理:有的依赖空间关系,有的依赖视觉外观,有的依赖上下文线索
- 现有方法多采用统一的精细化策略,对所有样本使用相同处理路径,无法匹配多样化的推理需求
- 典型失败模式:碎片化区域、边界泄漏、歧义表达下选错目标
核心问题¶
如何在冻结预训练 backbone 的参数高效设置下,根据参考表达的不同推理需求,自适应地选择合适的视觉特征精细化策略?
方法详解¶
SERA 由两个互补模块组成,均采用 MoE 机制:
1. SERA-Adapter(Backbone 层级精细化)¶
- 插入到 DINOv2 选定 transformer 块的前馈残差路径中
- 流程: 线性投影 → 空间网格重塑 → 多尺度卷积丰富(1×1, 3×3, 5×5 并行分支)→ 专家精细化 → 跨模态注意力 → 残差更新
- 两个专家:
- 边界专家: 深度可分离 3×3 卷积 + 缩放残差(β=0.1),增强轮廓敏感响应
- 空间专家: 深度可分离 3×3 卷积 + BN + ReLU + 缩放残差(α=0.3),增强局部特征一致性
- 软路由: 对空间 token 全局平均池化 → 线性投影 → softmax 得到两个专家的权重 ws, wb
- 通过跨模态注意力与文本嵌入对齐后残差注入 backbone
2. SERA-Fusion(融合层级精细化)¶
- 在视觉-语言融合阶段对中间空间特征图进行精细化
- 四个专家:
- 空间专家: 注入归一化坐标网格(1×1 卷积投影)提供显式位置信息
- 上下文专家: 基于自注意力的上下文聚合,捕获长程空间依赖
- 边界专家: 固定 Sobel 算子提取水平/垂直梯度 + 1×1 卷积融合梯度幅值
- 形状专家: 深度模糊 + 拉普拉斯滤波结合低频平滑与高频结构线索
- 稀疏 Top-K 路由: 全局平均池化 → 两层 MLP 预测路由 logits → 训练时加高斯噪声 → Top-k 选择 + softmax 归一化
3. 防止专家塌缩的策略¶
- SERA-Adapter 用软路由(稳定 backbone 适配),SERA-Fusion 用稀疏 Top-k 路由(鼓励专家化)
- 辅助正则化: logit 平方惩罚 + 负载均衡(变异系数平方)+ token 分配正则化
- Z-loss 惩罚路由 logits 的均方幅值
4. 参数高效训练¶
- DINOv2 和 CLIP 编码器全部冻结
- 仅更新 LayerNorm 和 bias 参数,影响 backbone 不到 1% 的参数
实验关键数据¶
在 RefCOCO / RefCOCO+ / G-Ref 三个标准基准上(mIoU):
| 数据集 | val | testA | testB |
|---|---|---|---|
| RefCOCO | 76.5 | 78.2 | 73.7 |
| RefCOCO+ | 70.4 | 74.4 | 62.8 |
| G-Ref(u) | 68.8/68.9 | ||
| G-Ref(g) | 66.6 | ||
| 平均 | 71.1 |
- 平均 mIoU 71.1,超越 DETRIS-B(70.4)、RISCLIP-B(70.6)等方法
- 在 RefCOCO+ val 上达到 70.4,在需要排除绝对空间词的更难设置下优势更明显
- 注意是在冻结 backbone 仅更新 bias/LN 的极端参数高效设置下达成
消融实验¶
- 仅加 SERA-Adapter:RefCOCO val +0.45、RefCOCO+ val +0.72、G-Ref(g) +0.64
- 加 SERA-Adapter + SERA-Fusion(完整 SERA):RefCOCO val +1.60、RefCOCO+ val +1.70、G-Ref(g) +1.52
- Top-K 路由中 K=1 性能最差,K=4 综合最优;K>2 后增益递减
- 训练环境:单卡 NVIDIA A6000,batch size 16,Adam 优化器,初始学习率 1e-4
亮点¶
- 首次将 MoE 引入参考图像分割: 在 backbone 和融合两个阶段分别设计了互补的专家路由机制
- 极致的参数效率: 仅更新 <1% backbone 参数即达到甚至超越全量微调方法
- 精心的路由稳定策略: 软路由 vs 稀疏路由在不同阶段的差异化设计,有效防止专家塌缩
- 四种互补专家设计: 空间/上下文/边界/形状四类专家覆盖 RIS 所需的不同视觉线索
- 零样本跨数据集泛化: 在 RefCOCO 系列间展示了良好的迁移能力
局限性 / 可改进方向¶
- 专家数量和类型是手工设计的(2+4),可探索自动化专家架构搜索
- Top-k 中 k 的选择需要调参,不同数据集可能有不同最优 k
- 仅在 RefCOCO 系列上验证,缺少更多样化的 RIS 基准(如 PhraseCut)
- 融合层的上下文专家引入自注意力,计算量相对其他专家更大
- 未探索与更大 backbone(如 ViT-L/ViT-G)的组合效果
与相关工作的对比¶
- vs. DETRIS: SERA 基于 DETRIS 构建,通过引入 MoE 将平均 mIoU 从 70.4 提升到 71.1
- vs. LAVT/CRIS: 这些传统全量微调方法在 RefCOCO 上仅 72.7/70.5,远低于 SERA 的 76.5
- vs. VATEX: VATEX 在 RefCOCO val 上达到 78.2(全量微调),SERA 在仅更新 <1% 参数时达到 76.5
- vs. V-MoE: V-MoE 将 MoE 用于图像分类扩展性,SERA 首次将 MoE 专家路由用于密集像素级的参考分割
启发与关联¶
- MoE 在密集预测任务中的应用值得进一步探索,不仅限于 RIS,也适用于语义分割、全景分割
- 边界/空间/上下文/形状四类专家的设计思路可推广到语义分割、实例分割等任务
- 软路由 vs 稀疏路由的差异化策略对其他使用 MoE 的场景有参考价值
- 极致参数高效下的性能提升说明预训练模型包含丰富但需要被"激活"的信息
- SERA-Adapter 的"投影→空间网格→多尺度卷积→专家精细化→跨模态注意力"流水线设计清晰,可作为通用的 adapter 范式
- Sobel/Laplacian 等传统算子与可学习模块的结合(边界/形状专家)体现了先验知识融合的有效性
评分¶
- 新颖性: ⭐⭐⭐⭐ (MoE 在 RIS 中首次系统性应用)
- 实验充分度: ⭐⭐⭐⭐ (三大基准 + 消融 + 零样本泛化)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,专家设计有理论动机)
- 价值: ⭐⭐⭐⭐ (为参数高效的密集预测提供新思路)