ARGenSeg: Image Segmentation with Autoregressive Image Generation Model¶

会议: NeurIPS 2025
arXiv: 2510.20803
代码: 无
领域: 图像分割 / 多模态大模型
关键词: 自回归图像生成, VQ-VAE分割, MLLM统一框架, Next-Scale Prediction, 理解与生成统一

一句话总结¶

提出ARGenSeg——首个利用自回归图像生成范式实现图像分割的统一MLLM框架，让模型直接输出visual tokens并通过VQ-VAE解码为分割mask，无需额外分割头，搭配next-scale prediction并行生成策略实现4×加速，在RefCOCO/+/g上以更少训练数据超越SOTA。

研究背景与动机¶

领域现状：将图像分割集成到MLLM中是当前热点。两类主流方案：（a）边界点序列表示（PolyFormer等）——将mask离散化为多边形点序列，但无法处理复杂形状；（b）专用分割解码器（LISA、PSALM等）——用special token或hidden states驱动SAM/Mask2Former解码，但模型架构复杂且LLM本身不学习像素级理解。
现有痛点：（a）点序列表示导致分割不完整和边界不自然；（b）专用解码器使LLM依赖外部模块而非自身学习fine-grained视觉理解；（c）推理速度慢（HiMTok等方法）。
核心矛盾：分割需要密集像素级输出，但LLM原生只做token级预测——如何让LLM"生成"分割mask而不依赖外部decoder？
本文要解决什么：让MLLM通过自回归图像生成直接产生分割mask，不需要任何额外分割头。
切入角度：将分割视为一种特殊的图像生成——生成的"图像"就是目标物体的mask。
核心idea：MLLM输出VQ-VAE的visual tokens → VQ-VAE解码器重建为mask图像 → 无外部分割解码器，分割能力完全来自MLLM的像素级理解。

方法详解¶

整体框架¶

基于InternVL 2.5初始化。输入：图像（连续特征，通过vision encoder）+ 文本指令（tokenizer）。输出：当需要分割时，MLLM输出visual tokens，VQ-VAE解码为mask图像。理解和生成任务共享统一的prediction head。

关键设计¶

统一的Visual Token预测
做什么：让MLLM直接预测VQ-VAE codebook中的visual token IDs。
核心思路：将VQ-VAE codebook（size=4096）中的tokens作为新"词汇"加入LLM词表。生成分割mask时，模型在遇到<gen_start>标记后，开始预测visual tokens。统一的classification head同时处理文本和visual token的预测，用cross-entropy loss监督（训练时GT visual tokens由VQ-VAE encoder获得）。
设计动机：不用special token+外部decoder的方案，让LLM必须自己学习理解像素级信息才能预测正确的visual tokens。实验证明这是获得高精度的关键。
Next-Scale Prediction加速
做什么：采用VAR的多尺度生成策略，每步并行生成整个scale的所有tokens。
核心思路：使用VAR tokenizer将特征量化为K=10个尺度的token maps \((r_1, \ldots, r_{10})\)。每一步生成当前尺度所有\(h_k \times w_k\)个tokens（并行），上一步的token map上采样后作为当前步的query。最终256×256图像用680个visual tokens表示，仅需10步自回归。
设计动机：（a）粗到细的多尺度生成与分割的"先定位后细化"直觉一致；（b）比逐token生成快4×以上。
训练策略：单阶段联合训练
做什么：在分割数据（402K）和理解数据（1.25M）上联合SFT。
核心思路：Vision encoder和VQ-VAE全程冻结，只训练LLM和projector。利用预训练的多模态理解能力快速收敛。分割数据仅402K，远少于HiMTok的2.91M。
设计动机：冻结tokenizer确保LLM必须自己学习像素级信息，而非依赖可学习的decoder。

损失函数¶

统一使用交叉熵损失，覆盖文本token和visual token的预测

实验关键数据¶

主实验（Referring Segmentation - RefCOCO/+/g cIoU）¶

方法	范式	RefCOCO val	RefCOCO+ val	RefCOCOg val	训练数据量
LISA-7B (ft)	专用head	74.9	65.1	67.9	-
PSALM	专用head	83.6	72.9	73.8	-
HiMTok-8B	生成式(专用tokenizer)	81.1	77.1	75.8	2.91M
HiMTok-8B (ft)	同上	85.0	79.7	80.0	2.91M
ARGenSeg	生成式(通用VQ-VAE)	82.2	77.9	78.4	402K
ARGenSeg (ft)	同上	86.3	82.3	81.7	402K

推理速度对比¶

方法	推理时间/图	加速比
HiMTok	~4x baseline	1×
UniGS (扩散)	~10x	0.4×
ARGenSeg	~1x	4×+

关键发现¶

无额外分割头即达SOTA：ARGenSeg是首个无需任何分割head就超越所有专用head方法的统一框架。
数据效率极高：用402K分割数据超越使用2.91M的HiMTok（RefCOCO val: 86.3 vs 85.0）。
直接输出visual tokens是关键：消融中，如果用类似LISA的hidden state+decoder方案，性能明显下降。
多尺度生成提升鲁棒性：不仅加速推理，粗到细的过程也提升了分割质量。
可扩展到图像生成：少量额外训练数据就能解锁文本到图像生成能力，验证了框架的通用性。

亮点与洞察¶

分割 = 图像生成：将分割重新定义为条件图像生成（生成的"图像"是mask），概念简洁又有效。这避开了所有专用分割头的设计，让MLLM端到端学习像素级理解。
通用VQ-VAE vs 专用tokenizer：HiMTok需要训练专门的mask tokenizer，ARGenSeg使用通用VQ-VAE——更通用、可扩展到其他生成任务。
冻结tokenizer的重要性：冻结VQ-VAE保证分割质量完全取决于MLLM的理解能力，这是与"理解驱动分割"理念一致的关键设计。

局限性 / 可改进方向¶

输出分辨率固定为256×256，高分辨率分割可能需要更多尺度。
VQ-VAE重建质量是性能上限——更好的tokenizer可能进一步提升。
实例分割和全景分割的评测不如referring segmentation充分。
训练仍需冻结tokenizer，端到端联合训练tokenizer+LLM是否更好未探索。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "分割=图像生成"范式转换 + 无分割头SOTA是突破性贡献
实验充分度: ⭐⭐⭐⭐ Referring/generalized/reasoning segmentation均有评测
写作质量: ⭐⭐⭐⭐ 方法描述清晰，动机论证充分
价值: ⭐⭐⭐⭐⭐ 为MLLM统一框架的像素级感知开创了新范式