Advancing Visual Large Language Model for Multi-granular Versatile Perception¶

会议: ICCV 2025
arXiv: 2507.16213
代码: 无（论文提到 "The code will be available here" 但未给出链接）
领域: 分割/目标检测
关键词: VLLM, 多粒度感知, 统一框架, CoT数据策划, 全景分割

一句话总结¶

本文提出 MVP-LM，一个基于视觉大语言模型的多粒度通用感知框架，通过创新的多粒度解码器和 CoT 启发的数据统一策略，首次在单一模型中同时支持词级/句级指令下的框/掩膜预测四种感知组合，在全景分割、目标检测、视觉定位和指示表达分割等任务上取得有竞争力的性能。

研究背景与动机¶

视觉感知任务可按两个维度分类：预测类型（边界框 vs 分割掩膜）和指令类型（词级 vs 句级），共产生四种组合。然而，现有方法通常只覆盖其中部分组合，限制了模型的通用性。

具体来看：传统检测器（如 GLIP、Grounding DINO）擅长词级+框预测，但不做掩膜；分割方法（如 X-Decoder、OpenSeeD）处理词级+掩膜但不擅长句级理解；VLM（如 QwenVL、InternVL）能理解句级指令输出框坐标，但无法做像素级预测；近期如 LISA、PixelLM 能做句级+掩膜，但忽略了词级感知。

核心矛盾：联合训练某些组合已有研究，但所有四种组合的协同训练效果尚未被充分探索。特别是：（1）如何让 VLLM 同时输出框和掩膜？（2）如何统一词级和句级指令的处理？（3）如何利用 LLM 的解码和生成能力增强感知？

MVP-LM 的核心思路：利用 VLLM 的语言理解和生成能力，设计多粒度解码器实现框+掩膜双输出，通过 CoT 启发的数据策划将异构数据集统一为"先思考后感知"的格式。

方法详解¶

整体框架¶

MVP-LM 由四个核心组件组成：（1）Swin-B Transformer 作为图像编码器；（2）连接模块对齐视觉-文本特征；（3）Phi-1.5 作为语言模型；（4）基于 OpenSeeD 设计的多粒度解码器同时输出框和掩膜。VLLM 先生成图像描述caption，然后输出 summary token，其 hidden state 被投影为视觉查询，再送入解码器进行检测和分割。

关键设计¶

动态查询生成:
- 功能：根据输入指令动态生成用于检测/分割的视觉查询，而非使用固定的可学习查询
- 核心思路：每个查询由两部分组成——（a）上下文感知基础查询：VLLM 生成 summary token <PER>，其 hidden state 通过 MLP 投影为 \(N\) 个基础查询向量；（b）语言引导残差：计算多尺度视觉特征与输入指令文本 embedding 的相似度，选取 Top-\(N\) 最相似的视觉特征作为残差，与基础查询相加得到最终查询
- 设计动机：动态查询使模型能自适应关注图像中与指令最相关的区域。LLM 生成的 summary token 编码了输入的全局上下文信息，而语言引导的视觉特征选择引入了空间先验
多粒度解码器:
- 功能：基于 OpenSeeD 架构，同时处理框预测和掩膜预测
- 核心思路：从查询选择机制生成内容查询和参考点，经过多层可变形注意力（deformable attention）与多尺度视觉特征交叉注意，每层输出通过三个共享头处理——跨模态相似度计算头、框回归头和掩膜预测头。对于词级感知，通过文本 embedding 与预测区域的相似度匹配类别；对于句级感知，使用 BCE 损失直接匹配目标
- 设计动机：框和掩膜共享表征可以相互促进——掩膜标注可转化为框标注，联合训练能利用更丰富的数据源
CoT 启发的数据统一策略:
- 功能：将来自不同任务（全景分割、检测、定位、指示分割）的异构数据集统一为单一 SFT 数据格式
- 核心思路：每个训练样本由三部分组成——任务描述（如"请根据给定短语列表识别所有物体"或"请根据以下指令识别目标"）、指令（词列表或指示表达）、回答（"[图像描述]. 感知结果是 <PER>"）。训练时在回答中预置图像描述 caption，鼓励模型"先思考后感知"
- 设计动机：使用多个开源 VLLM（VILA-3B/13B, InternVL2-8B/26B）自动生成多样化 caption，避免过拟合单一描述风格。词级任务中随机打乱类别顺序并加入负类别，防止学习虚假关联

损失函数 / 训练策略¶

综合损失函数：\(\mathcal{L} = \mathcal{L}_{llm} + \lambda_{word}\mathcal{L}_{word} + \lambda_{sent}\mathcal{L}_{sent} + \mathcal{L}_{mask} + \mathcal{L}_{box}\)，其中 \(\mathcal{L}_{mask} = 5 \cdot L_{BCE} + 5 \cdot L_{DICE}\)，\(\mathcal{L}_{box} = 5 \cdot L_{L1} + 2 \cdot L_{GIoU}\)。训练分两阶段：Stage 1 仅训练连接模块（CC3M 数据），Stage 2 对全模型（除视觉编码器）联合训练 80K 步。使用匈牙利匹配和去噪策略稳定优化。

实验关键数据¶

主实验：闭集全景分割与开集分割¶

方法	类型	COCO PQ	COCO mIoU	ADE-OV PQ	ADE-OV mIoU	PC59 mIoU	PAS20 mIoU
PSALM	VLLM	55.9	66.6	13.7	18.2	48.5	81.3
OMG-LLaVA	VLLM	53.8	-	-	-	-	-
MVP-LM	VLLM	56.1	66.8	19.4	20.5	44.1	85.7
OpenSeeD	专家	59.5	68.6	19.7	23.4	-	-

消融实验¶

训练数据集配置	RefCOCO val (cIoU)	COCO PQ	COCO mIoU	说明
C, R	77.6	56.4	66.3	基础配置
C, R, O	81.8	55.8	65.9	+O365，句级大幅提升
C, R, O, G	83.6	56.1	66.8	+Grounding，全面最优

回答设置	RefCOCO cIoU	COCO PQ	COCO mIoU
无描述（仅 summary）	75.6	55.3	65.7
生成已有物体名称	75.6	54.9	65.6
生成图像 caption	75.7	55.6	66.2

关键发现¶

MVP-LM 是首个在单一模型中覆盖所有四种感知组合的 VLLM 方法
仅 1.3B 参数的 MVP-LM 在 REC 任务上超越多数 7B/13B 模型（RefCOCO val 93.5）
多数据集联合训练将句级感知（RefCOCO）提升了 6.0 个点，同时保持词级感知性能稳定
开集分割（ADE-OV）上相比 PSALM 提升 5.7 PQ / 2.3 mIoU，体现了框架的泛化能力
"先描述后感知"策略确实优于直接感知，验证了 CoT 范式对感知任务的有效性

亮点与洞察¶

四合一统一框架：首次论证联合训练所有四种感知组合的可行性和互惠效果，特别是框标注数据对分割的增强作用
动态查询生成：将 LLM 的生成能力与传统检测器的查询机制巧妙结合，base query 来自语言理解，residual 来自视觉-语言匹配
CoT 范式迁移到感知：将推理领域的"先思考"范式应用于感知任务，是一个有启发性的设计

局限与展望¶

模型规模较小（Phi-1.5 + Swin-B），扩大规模可能带来进一步提升
在 PC59 等部分开集分割基准上弱于专家模型
尚未探索视频感知和 3D 感知的扩展
论文提到可探索 R1-like RL 训练用于感知任务，是值得关注的方向

补充实验：指示表达理解（REC）¶

方法	参数量	RefCOCO val	RefCOCO testA	RefCOCO testB
Shikra	13B	87.8	91.1	81.8
MiniGPTv2	7B	88.7	91.7	85.3
MVP-LM	1.3B	93.5	94.5	91.6
DeepSeek-VL2	200B+	95.1	96.7	95.1

仅 1.3B 参数的 MVP-LM 在 RefCOCO 上全面超越 7B/13B 模型，甚至接近 200B+ 的 DeepSeek-VL2，体现了统一框架设计的高效性。

评分¶

新颖性: ⭐⭐⭐⭐ 四种感知组合统一框架概念清晰，动态查询生成和 CoT 数据策划设计巧妙
实验充分度: ⭐⭐⭐⭐ 多基准评估 + 详尽消融，但部分开集基准性能不够突出
写作质量: ⭐⭐⭐⭐ 分类体系清晰，方法表述条理好，Tab.1 的能力对比表直观
价值: ⭐⭐⭐⭐ 为 VLLM 在统一感知方向提供了完整的基线和设计范式