Refer to Any Segmentation Mask Group With Vision-Language Prompts¶

会议: ICCV 2025
arXiv: 2506.05342
代码: Ref2Any
领域: segmentation
关键词: 全模态指代分割, 掩码分组, 视觉-语言提示, 大型多模态模型, 非自回归解码

一句话总结¶

提出全模态指代表达分割（ORES）任务及 RAS 框架，通过掩码级 LMM 和非自回归解码机制，根据视觉-语言混合提示从候选掩码中选择目标掩码组，在新 ORES 数据集及经典 RES/GRES 基准上取得 SOTA。

研究背景与动机¶

指代表达分割（RES）将文本描述与分割掩码关联，实现语言驱动的目标定位。然而在自动驾驶、机器人操作、AR 和图像编辑等实际应用中，用户常需表达涉及参考视觉实体的复杂关系（如"所有与这个物体颜色相同的东西"），仅依赖文本描述往往难以准确定位参考实体。

现有方法存在三大局限：

交互式分割模型（如 SEEM）支持视觉提示，但视觉提示只能直接指向目标实体，无法表达"与参考实体相关的其他目标"

Grounding LMM（如 Groundhog）支持区域描述任务，但不能根据掩码提示执行分割

大多数方法每次只输出单个目标，无法处理多目标场景

核心动机：定义一个新任务 ORES，允许用户通过文本+参考掩码混合提示，一次性返回满足条件的一组掩码，实现更灵活、更实用的分割交互。

方法详解¶

整体框架¶

RAS（Refer to Any Segmentation Mask Group）基于 LLaVA-1.5（Vicuna-13B）扩展，包含四个核心模块：

分割基础模型（SAM/Co-DETR）：生成候选掩码池
视觉编码器集成：CLIP + SigLIP + ConvNeXt-CLIP + DINOv2 + 2D 位置编码
掩码投影器：将掩码级特征映射到语言空间
二分类选择器：对每个候选掩码做是否入组的二分类

关键设计一：掩码 Token 化¶

对每个候选掩码，将其下采样到各视觉编码器特征图的空间尺寸，在掩码区域内做平均池化得到掩码级特征。拼接来自所有编码器的特征后，通过掩码投影器映射到语言特征空间，形成掩码 Token。

候选掩码 Token 前置 <mask-pool-pre> 特殊标记
参考掩码 Token 前置 <mask-ref-pre> 特殊标记
两者共享掩码 Token 化流程，通过不同特殊标记区分角色

关键设计二：非自回归掩码组解码¶

传统自回归方式逐个预测掩码嵌入存在两大问题：(a) LLM 本质建模离散 Token 分布，预测连续嵌入不自然；(b) 无序集合预测需不稳定的二分匹配。

RAS 将掩码组预测重新建模为逐掩码二分类问题：

先输入所有上下文 Token（全局视觉 + 文本 + 参考掩码）
再次输入候选掩码 Token，捕获 LLM 输出隐状态
在隐状态之上用二分类器判断每个候选掩码是否应纳入目标组

\[\mathcal{L} = \frac{1}{N}\sum_{i=1}^{N} w_i \cdot \text{BCE}(\hat{y}_i, y_i)\]

其中正样本权重 \(w_i\) 更大以应对正负样本不平衡。该策略支持单次前向完成所有候选掩码的分类，推理延迟仅 0.56s（vs 自回归 2.13s）。

关键设计三：多阶段训练¶

阶段 1 — 掩码投影器预训练：冻结所有模块，仅训练掩码投影器。只用掩码 Token（不加全局视觉 Token）让 LLM 预测图像描述，对齐掩码表示和语言空间。

阶段 2 — 视觉指令微调：解冻除视觉编码器外的所有模块，在掩码分组任务上训练。可进一步在 RES/GRES 数据上微调以适配下游任务。

数据集构建¶

MaskGroups-2M：从 MS-COCO/LVIS/VG/RES/GRES 数据集中自动构建 200 万掩码分组样本，覆盖类别/属性/位置/自由描述四类准则
MaskGroups-HQ：人工标注 100,299 个高质量掩码组（96,697 训练 + 3,599 评估），28% 包含参考掩码

实验¶

主实验：ORES 任务（MaskGroups-HQ）¶

模型	文本提示 gIoU	文本提示 cIoU	混合提示 gIoU	混合提示 cIoU	总体 cIoU
ReLA	34.93	43.22	-	-	-
GSVA-13B	41.98	49.55	-	-	-
RAS-13B (SAM)	55.82	60.12	35.91	37.77	53.93
RAS-13B (ORES-FT)	66.71	74.59	58.72	68.77	73.13

RAS 是唯一能处理视觉参考提示的方法。经 ORES 微调后，cIoU 从 53.93 跃升至 73.13。

RES/GRES 基准¶

模型	RefCOCO val	RefCOCO+ val	RefCOCOg val	平均
PSALM-1.3B	83.6	72.9	73.8	77.1
RAS-13B (RES-FT)	81.0	75.1	76.0	77.8

在 GRES（gRefCOCO）上同样取得最优：总体 cIoU 71.79。

消融实验¶

解码范式	cIoU	推理延迟(s)
自回归	45.34	2.13
非自回归	53.75	0.56

视觉编码器	总体 cIoU
仅 CLIP	52.44
仅 DINOv2	47.71
四编码器集成	53.75

关键发现¶

候选掩码质量分析：SAM/Co-DETR 的 Oracle cIoU 达 86-87，远超现有方法 77 的最终性能，说明候选掩码池质量极高
非自回归解码比自回归提升 +8.4 cIoU 且推理速度快 3.8x
四编码器集成比单编码器一致性地提升性能，ConvCLIP 在视觉参考任务上贡献最大

亮点与洞察¶

任务定义创新：ORES 首次统一文本和视觉参考提示，输出掩码组而非单个掩码，贴近实际应用
解耦分割与理解：利用分割基础模型提供高质量候选，用 LMM 做语义理解和选择，各取所长
非自回归解码设计精巧：将集合预测转化为逐元素二分类，规避无序集合匹配难题

局限性¶

候选掩码质量依赖分割基础模型，若候选池未覆盖目标则无法恢复
基于 Vicuna-13B 的 LLM 参数量大，部署成本较高
不支持文本生成能力（如解释预测结果），限制了交互性

评分¶

新颖性: ⭐⭐⭐⭐ — ORES 任务定义和非自回归掩码组解码均具开创价值
技术深度: ⭐⭐⭐⭐ — 掩码 Token 化、多编码器集成和训练策略设计完整
实验: ⭐⭐⭐⭐ — ORES/RES/GRES 多任务评估充分，消融到位
写作: ⭐⭐⭐⭐ — 行文清晰，任务动机论证有力