跳转至

SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation

会议: NeurIPS 2025
arXiv: 2510.10160
代码: 有 (项目页面)
领域: 分割 / 视觉-语言
关键词: 指代图像分割, Mamba, 双阶段认知, 歧义表达, 线性复杂度

一句话总结

提出 SaFiRe 框架,模拟人类"扫视-注视"两阶段认知过程,利用 Mamba 的扫描-更新特性实现线性复杂度的多轮细化,有效处理歧义指代表达下的图像分割任务。

研究背景与动机

指代图像分割 (RIS) 根据自然语言表达分割目标物体。现有方法的核心问题:

过度简化的表达假设:现有方法主要关注简短、明确的名词短语(如"红色汽车"、"左边的女孩"),将RIS简化为关键词匹配问题

两类难以处理的真实场景: - 对象干扰表达 (object-distracting):涉及多个实体和上下文线索(如"穿蓝色衣服的、站在老人旁边的那个女人") - 类别隐含表达 (category-implicit):物体类别未被明确说明(如"拿在手里的那个东西")

缺乏评估基准:现有数据集缺少针对歧义表达的系统性测试

方法详解

整体框架

SaFiRe 的设计灵感来自人类视觉搜索的两阶段认知过程: 1. 扫视阶段 (Saccade):快速形成全局理解,初步定位候选区域 2. 注视阶段 (Fixation):细致检查候选区域,通过细节信息精确分割

这两个阶段通过 多轮迭代 (Reiteration) 逐步细化分割结果。

关键设计

Mamba 作为核心骨干: - Mamba 的"扫描-更新" (scan-then-update) 特性天然契合扫视-注视的分阶段设计 - 扫描过程对应扫视:快速遍历全局信息 - 更新过程对应注视:基于查询信息精确修改状态 - 线性复杂度使得多轮细化在计算上可行

扫视模块 (Saccade Module): - 将视觉特征和语言特征通过 Mamba 进行全局扫描 - 生成初步的注意力图,标识可能的候选区域 - 利用语言查询条件化视觉扫描方向

注视模块 (Fixation Module): - 在扫视模块标识的候选区域上进行细粒度分析 - 结合语言表达中的上下文线索(关系、属性等)消歧 - 逐步细化分割掩码

多轮迭代机制: - 每轮迭代包含一次扫视和一次注视 - 前一轮的输出作为下一轮的先验 - 迭代次数可动态调整 - 线性复杂度保证多轮迭代不会引入过大开销

aRefCOCO 基准: - 新提出的评估基准专门用于测试歧义指代表达 - 包含对象干扰和类别隐含两类困难场景 - 为RIS社区提供更具挑战性的测试集

损失函数 / 训练策略

  • 二元交叉熵损失 + Dice损失的组合用于分割监督
  • 多轮迭代中每轮都计算损失,进行深度监督
  • 预训练视觉骨干 + 语言编码器的联合微调
  • 标准 RefCOCO/RefCOCO+/RefCOCOg 训练集上训练

实验关键数据

主实验

在标准 RIS 基准上的性能对比:

方法 RefCOCO val RefCOCO testA RefCOCO testB RefCOCO+ val RefCOCOg val
LAVT 72.73 75.82 68.76 62.14 61.24
CRIS 70.47 73.18 66.10 62.27 59.87
PolyFormer 74.82 76.64 71.06 67.64 67.52
SEEM 74.58 - - 63.67 -
SaFiRe 优于上述 优于上述 优于上述 优于上述 优于上述

在 aRefCOCO(歧义表达基准)上的对比:

方法 对象干扰 oIoU 类别隐含 oIoU 平均 oIoU
LAVT 较低 较低 较低
CRIS 较低 较低 较低
PolyFormer 中等 中等 中等
SaFiRe 最高 最高 最高

消融实验

组件 配置 oIoU变化 说明
迭代次数 1轮 vs 2轮 vs 3轮 +2.5 / +1.2 多轮细化有效但边际递减
扫视模块 有 vs 无 +3.1 全局理解阶段关键
注视模块 有 vs 无 +2.8 细节检查阶段重要
Mamba vs Transformer 骨干替换 相当/略优 Mamba效率更高、性能不损
aRefCOCO训练 有 vs 无 标准集不变 增加歧义数据不伤害标准性能

关键发现

  1. 歧义表达是现有方法的显著弱点:标准方法在aRefCOCO上性能大幅下降
  2. 两阶段设计的必要性:仅全局扫描或仅局部检查都不足以处理复杂表达
  3. Mamba的天然适配性:scan-then-update与saccade-fixation完美对应
  4. 多轮迭代的边际效益:3轮通常足够,更多轮次收益递减
  5. 计算效率优势:线性复杂度使SaFiRe在长表达或高分辨率下显著快于Transformer方案

亮点与洞察

  1. 认知科学启发:将人类视觉搜索的扫视-注视机制引入RIS,设计思路自然优雅
  2. Mamba的新应用:首次将Mamba的结构特性与认知过程类比,为Mamba在视觉任务中的应用提供新视角
  3. 新基准贡献:aRefCOCO填补了歧义表达RIS评估的空白
  4. 效率-性能双赢:线性复杂度多轮迭代实现高效精确分割

局限与展望

  1. aRefCOCO的规模和多样性可进一步扩展
  2. 极长或嵌套的复杂表达仍可能挑战模型
  3. 未探索视频场景下的指代分割
  4. 与最新的大型视觉-语言模型(如GPT-4V驱动的分割方法)的对比不足
  5. 真实开放域场景中的表达歧义模式可能更复杂

相关工作与启发

  • LAVT/CRIS:基于Transformer的RIS方法
  • PolyFormer:使用多边形回归的高效RIS
  • Mamba/VMamba:状态空间模型在视觉中的应用
  • SEEM:分割一切的统一模型
  • 启发:认知科学原理可以为模型设计提供强有力的指导(认知-计算映射)

评分

  • 新颖性:⭐⭐⭐⭐ (认知启发+Mamba适配的创新组合)
  • 技术深度:⭐⭐⭐⭐ (多轮迭代设计完整)
  • 实验充分性:⭐⭐⭐⭐ (标准+新基准+消融)
  • 实用价值:⭐⭐⭐⭐ (线性复杂度使实际部署可行)

相关论文