UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning¶

会议: NeurIPS 2025
arXiv: 2509.18094
代码: 项目主页
领域: 图像分割
关键词: 多模态大模型, 像素级推理, 对象引用与分割统一, Object Memory Bank, 视频理解

一句话总结¶

UniPixel 提出了首个端到端统一对象引用 (referring) 和分割 (segmentation) 的大型多模态模型，通过创新的 Object Memory Bank 设计将稀疏视觉提示转化为稠密对象掩码特征并注入推理过程，在 10 个基准上实现 SOTA，还引入了需要同时完成引用、分割和问答的 PixelQA 新任务。

研究背景与动机¶

大型多模态模型 (LMMs) 在整体图像/视频理解任务上表现出色，但在细粒度像素级理解方面存在两个根本性限制：

交互形式单一：用户只能通过文本交互，缺乏更直观的沟通方式（如画点/框作为引用，或用掩码来 ground 模型响应）

推理粒度粗糙：模型内部推理主要在整体层面进行，直接感知全部内容而非对特定对象/区域进行推理，难以理解细粒度细节

现有方法（如 LISA、VISA 等）虽然探索了 LMM 驱动的分割，但存在根本局限：它们只能独立地执行引用或分割任务，依赖于刚性的输入/输出模板（如 LISA 的 "It's \<SEG>."），无法灵活地同时理解用户引用的概念并生成掩码 grounded 的响应。更关键的是，这些方法无法将细粒度感知能力与通用的多模态推理能力融合，导致在通用理解基准上性能退化。

UniPixel 的核心创新在于通过 Object Memory Bank 统一了引用和分割的内部表示，使模型能够在推理过程中动态地分割关键对象、编码其特征、并基于这些对象级信息进行后续推理。

方法详解¶

整体框架¶

UniPixel 基于 Qwen2.5-VL 框架构建，包含 LLM 骨干和支持动态分辨率的 ViT 视觉编码器。在此基础上引入三个关键组件：Prompt Encoder（支持点/框/掩码三种视觉提示）、Object Memory Bank（存储和注入对象信息）、Mask Decoder（基于 SAM 2.1 生成时空掩码）。扩展 LLM 词汇表，添加 <REF>、<MEM>、<SEG> 三个特殊 token。

关键设计¶

Prompt Encoder（视觉提示编码器）：将每种视觉提示编码为单个 token 送入 LLM。对于稀疏提示（点和框），使用 2D Fourier 嵌入编码空间坐标加可学习类型嵌入，创新性地扩展加入 1D Fourier 时间编码表示帧索引，最后通过 GELU→Linear 投影到 LLM 嵌入空间。对于稠密提示（掩码），直接在视觉编码器输出上做 masked pooling，通过 M→L 投影器映射。设计动机：受 SAM 启发但有两个关键差异——加入时间信息并去掉负向点。
Object Memory Bank（对象记忆库）：这是核心创新——一个以对象 ID 为键、时空掩码为值的 hashmap，每个对话会话初始化为空，按需动态更新。包含两个操作：(a) Memory Pre-filling：当输入中检测到 <REF> token 时触发，模型生成对象 ID 和 <SEG> token 预测时空掩码并存入记忆库；(b) Memory Injection：将存储的对象掩码下采样后做 masked pooling，每帧掩码压缩为单个特征 token 通过投影器映射后替换 <MEM> token，将对象级信息注入后续推理。设计动机：直接在 <REF> 后追加 <SEG> 的替代方案存在两个问题——因果自注意力使掩码无法获取完整上下文导致质量差，以及引用和分割无法解耦训练。
Mask Decoder（掩码解码器）：采用 SAM 2.1 解耦离散语言建模和连续掩码预测。对每个 <SEG> token 提取最后层隐状态，通过 L→M 投影器下采样并 reshape 为两个 token（确保信息在高→低维通道空间下采样时更好保留），用这些 token 提示 SAM 2.1 在首帧预测掩码后传播到其他帧。

损失函数 / 训练策略¶

总损失为语言建模损失和掩码解码损失的线性组合： - 语言建模：标准 cross-entropy，权重 1 - 掩码预测：focal loss (权重 100) + dice loss (权重 5) + IoU 预测 MAE (权重 5) + objectness cross-entropy (权重 5)

三阶段渐进训练： 1. 阶段一：用 851K 区域描述数据预训练稀疏提示编码器 2. 阶段二：用 87K 引用分割数据训练 L→M 投影器对齐 LLM 和掩码解码器 3. 阶段三：解冻 M→L 投影器和掩码解码器，对视觉编码器和 LLM 应用 LoRA，在 ~2M 多任务样本上联合训练

实验关键数据¶

主实验 — 推理视频目标分割 (ReVOS)¶

方法	模型大小	Overall 𝒥&ℱ	之前SOTA	提升
VISA	13B	50.9	—	—
ViLLa	6B	57.0	—	—
UniPixel	3B	62.1	57.0	+5.1
UniPixel	7B	63.7	57.0	+6.7

消融实验¶

配置	𝒥&ℱ	Acc	说明
仅 Referring	—	64.6	无分割能力
仅 Segmentation	47.5	—	无引用能力
Refer + Segment (无Memory)	48.2	67.4	统一但无记忆
Refer + Segment + Memory	49.0	68.5	完整 UniPixel
① 单 token 引用	46.8	64.5	最简引用
② \<REF>\<SEG>	47.8	64.9	加辅助分割
③ + Pooling	47.5	66.3	加 pooled 特征
④ Object Memory Bank	49.0	68.5	解耦设计最优

关键发现¶

引用与分割的互增强效应：联合训练引用和分割能力使两个任务都有提升（分割从 47.5→48.2，引用 QA 从 64.6→67.4）
3B 模型超越 7-13B 竞品：在 ReVOS 上，3B 的 UniPixel 超越所有 7B-13B 参数的竞品，说明统一设计比简单增大模型更有效
时间编码至关重要：去掉提示编码器中的时间编码后 𝒥&ℱ 从 49.0 降至 44.3
Ref-SAV 大幅领先：在复杂的长视频数据集 Ref-SAV 上，UniPixel-3B 达到 67.2 𝒥&ℱ，远超 Sa2VA-8B 的 41.3（不做微调）

亮点与洞察¶

首个端到端统一引用+分割的方法：通过 Object Memory Bank 的优雅设计，避免了外部帧采样器、掩码生成器或目标追踪器
PixelQA 新任务：提出了需要同时完成引用、分割和 QA 的新范式，弥合了像素级感知和语言推理的鸿沟
对象级测试时扩展：可以被视为一种 object-centric test-time scaling 方法——先分割关键对象再编码以辅助推理
记忆库的解耦设计：解决了因果自注意力限制下 <SEG> token 无法获取完整上下文的根本问题

局限与展望¶

7B 版本在 PixelQA 分割质量上反而低于 3B（𝒥&ℱ 44.6 vs 60.9），可能存在大模型下分割能力退化的问题
推理分割数据 (ReasonSeg) 仅 239 样本，容易被大规模数据淹没
掩码传播依赖 SAM 2.1，对极端运动或遮挡的鲁棒性受限于外部模块

评分¶

新颖性: ⭐⭐⭐⭐⭐ Object Memory Bank 设计新颖，PixelQA 任务定义有前瞻性
实验充分度: ⭐⭐⭐⭐⭐ 10 个基准、9 个任务全面覆盖，消融详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，研究问题引导式叙述
价值: ⭐⭐⭐⭐⭐ 统一框架有广泛应用前景，PixelQA 开辟新方向