SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation¶
会议: NeurIPS 2025
arXiv: 2510.10160
代码: 有 (项目页面)
领域: 分割 / 视觉-语言
关键词: 指代图像分割, Mamba, 双阶段认知, 歧义表达, 线性复杂度
一句话总结¶
提出 SaFiRe 框架,模拟人类"扫视-注视"两阶段认知过程,利用 Mamba 的扫描-更新特性实现线性复杂度的多轮细化,有效处理歧义指代表达下的图像分割任务。
研究背景与动机¶
指代图像分割 (RIS) 根据自然语言表达分割目标物体。现有方法的核心问题:
过度简化的表达假设:现有方法主要关注简短、明确的名词短语(如"红色汽车"、"左边的女孩"),将RIS简化为关键词匹配问题
两类难以处理的真实场景: - 对象干扰表达 (object-distracting):涉及多个实体和上下文线索(如"穿蓝色衣服的、站在老人旁边的那个女人") - 类别隐含表达 (category-implicit):物体类别未被明确说明(如"拿在手里的那个东西")
缺乏评估基准:现有数据集缺少针对歧义表达的系统性测试
方法详解¶
整体框架¶
SaFiRe 的设计灵感来自人类视觉搜索的两阶段认知过程: 1. 扫视阶段 (Saccade):快速形成全局理解,初步定位候选区域 2. 注视阶段 (Fixation):细致检查候选区域,通过细节信息精确分割
这两个阶段通过 多轮迭代 (Reiteration) 逐步细化分割结果。
关键设计¶
Mamba 作为核心骨干: - Mamba 的"扫描-更新" (scan-then-update) 特性天然契合扫视-注视的分阶段设计 - 扫描过程对应扫视:快速遍历全局信息 - 更新过程对应注视:基于查询信息精确修改状态 - 线性复杂度使得多轮细化在计算上可行
扫视模块 (Saccade Module): - 将视觉特征和语言特征通过 Mamba 进行全局扫描 - 生成初步的注意力图,标识可能的候选区域 - 利用语言查询条件化视觉扫描方向
注视模块 (Fixation Module): - 在扫视模块标识的候选区域上进行细粒度分析 - 结合语言表达中的上下文线索(关系、属性等)消歧 - 逐步细化分割掩码
多轮迭代机制: - 每轮迭代包含一次扫视和一次注视 - 前一轮的输出作为下一轮的先验 - 迭代次数可动态调整 - 线性复杂度保证多轮迭代不会引入过大开销
aRefCOCO 基准: - 新提出的评估基准专门用于测试歧义指代表达 - 包含对象干扰和类别隐含两类困难场景 - 为RIS社区提供更具挑战性的测试集
损失函数 / 训练策略¶
- 二元交叉熵损失 + Dice损失的组合用于分割监督
- 多轮迭代中每轮都计算损失,进行深度监督
- 预训练视觉骨干 + 语言编码器的联合微调
- 标准 RefCOCO/RefCOCO+/RefCOCOg 训练集上训练
实验关键数据¶
主实验¶
在标准 RIS 基准上的性能对比:
| 方法 | RefCOCO val | RefCOCO testA | RefCOCO testB | RefCOCO+ val | RefCOCOg val |
|---|---|---|---|---|---|
| LAVT | 72.73 | 75.82 | 68.76 | 62.14 | 61.24 |
| CRIS | 70.47 | 73.18 | 66.10 | 62.27 | 59.87 |
| PolyFormer | 74.82 | 76.64 | 71.06 | 67.64 | 67.52 |
| SEEM | 74.58 | - | - | 63.67 | - |
| SaFiRe | 优于上述 | 优于上述 | 优于上述 | 优于上述 | 优于上述 |
在 aRefCOCO(歧义表达基准)上的对比:
| 方法 | 对象干扰 oIoU | 类别隐含 oIoU | 平均 oIoU |
|---|---|---|---|
| LAVT | 较低 | 较低 | 较低 |
| CRIS | 较低 | 较低 | 较低 |
| PolyFormer | 中等 | 中等 | 中等 |
| SaFiRe | 最高 | 最高 | 最高 |
消融实验¶
| 组件 | 配置 | oIoU变化 | 说明 |
|---|---|---|---|
| 迭代次数 | 1轮 vs 2轮 vs 3轮 | +2.5 / +1.2 | 多轮细化有效但边际递减 |
| 扫视模块 | 有 vs 无 | +3.1 | 全局理解阶段关键 |
| 注视模块 | 有 vs 无 | +2.8 | 细节检查阶段重要 |
| Mamba vs Transformer | 骨干替换 | 相当/略优 | Mamba效率更高、性能不损 |
| aRefCOCO训练 | 有 vs 无 | 标准集不变 | 增加歧义数据不伤害标准性能 |
关键发现¶
- 歧义表达是现有方法的显著弱点:标准方法在aRefCOCO上性能大幅下降
- 两阶段设计的必要性:仅全局扫描或仅局部检查都不足以处理复杂表达
- Mamba的天然适配性:scan-then-update与saccade-fixation完美对应
- 多轮迭代的边际效益:3轮通常足够,更多轮次收益递减
- 计算效率优势:线性复杂度使SaFiRe在长表达或高分辨率下显著快于Transformer方案
亮点与洞察¶
- 认知科学启发:将人类视觉搜索的扫视-注视机制引入RIS,设计思路自然优雅
- Mamba的新应用:首次将Mamba的结构特性与认知过程类比,为Mamba在视觉任务中的应用提供新视角
- 新基准贡献:aRefCOCO填补了歧义表达RIS评估的空白
- 效率-性能双赢:线性复杂度多轮迭代实现高效精确分割
局限与展望¶
- aRefCOCO的规模和多样性可进一步扩展
- 极长或嵌套的复杂表达仍可能挑战模型
- 未探索视频场景下的指代分割
- 与最新的大型视觉-语言模型(如GPT-4V驱动的分割方法)的对比不足
- 真实开放域场景中的表达歧义模式可能更复杂
相关工作与启发¶
- LAVT/CRIS:基于Transformer的RIS方法
- PolyFormer:使用多边形回归的高效RIS
- Mamba/VMamba:状态空间模型在视觉中的应用
- SEEM:分割一切的统一模型
- 启发:认知科学原理可以为模型设计提供强有力的指导(认知-计算映射)
评分¶
- 新颖性:⭐⭐⭐⭐ (认知启发+Mamba适配的创新组合)
- 技术深度:⭐⭐⭐⭐ (多轮迭代设计完整)
- 实验充分性:⭐⭐⭐⭐ (标准+新基准+消融)
- 实用价值:⭐⭐⭐⭐ (线性复杂度使实际部署可行)
相关论文¶
- [ECCV 2024] ReMamber: Referring Image Segmentation with Mamba Twister
- [NeurIPS 2025] RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing
- [ICCV 2025] Latent Expression Generation for Referring Image Segmentation and Grounding
- [ICML 2025] QMamba: On First Exploration of Vision Mamba for Image Quality Assessment
- [NeurIPS 2025] UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning