MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding¶

会议: ICCV 2025
arXiv: 2411.17762
代码: 无
领域: 多模态VLM / 统一理解与生成
关键词: unified VLM, visual tokenizer, semantic discrete encoding, autoregressive, image generation

一句话总结¶

提出语义离散编码（SDE）视觉tokenizer，在VQGAN基础上加入SigLIP语义特征约束，使离散视觉token与语言token语义对齐，构建统一的自回归VLM（MUSE-VL），在仅用24M数据的条件下理解性能比Emu3提升4.8%，超过LLaVA-NeXT 34B专用理解模型3.7%，同时支持图像生成。

研究背景与动机¶

领域现状：统一多模态理解和生成是VLM的重要方向。现有统一模型（如Chameleon、Show-o、Emu3）使用VQGAN等视觉tokenizer将图像转为离散token，与文本token一起做next-token prediction。但VQGAN只关注底层像素信息（重建损失），生成的离散token缺乏语义信息。
现有痛点：(1) VQGAN token与语言token间有很大的语义鸿沟，导致统一模型的理解性能远低于专用模型；(2) Chameleon等模型需要从零训练LLM，数据需求和计算成本极高；(3) VILA-U尝试同时训练对比损失和重建损失来对齐语义，但存在严重的损失冲突导致收敛困难。
核心矛盾：视觉token需要同时满足两个矛盾需求——保留底层像素信息用于图像重建/生成，同时承载高层语义信息用于理解。VQGAN只顾前者，CLIP只顾后者，直接组合（如VILA-U）会冲突。
本文要解决什么：设计一种视觉tokenizer，使离散码既保留图像重建能力又包含丰富语义信息，从而降低统一VLM的训练难度。
切入角度：不直接对比学习（VILA-U的问题），而是用预训练SigLIP的图像编码器提取语义特征，将其融合到编码过程中，同时用语义解码器（重建SigLIP特征）和图像解码器（重建像素）两个分支约束。
核心idea一句话：将SigLIP语义特征融合到视觉量化过程中，用双分支（语义重建+图像重建）训练视觉tokenizer，使离散码自然包含语义信息。

方法详解¶

整体框架¶

SDE Tokenizer将图像编码为16×16或27×27的离散token序列 → 与文本token一起送入自回归Transformer（基于Qwen2.5/Yi-1.5 LLM） → 用标准cross-entropy next-token prediction训练。理解任务：视觉token在prompt中，输出文本回复。生成任务：文字描述在prompt中，输出视觉token后用图像解码器解码。

关键设计¶

语义离散编码（SDE）Tokenizer:
做什么：将图像离散化为既包含像素信息又包含语义信息的visual tokens。
核心思路：图像先经过初始化自SigLIP的编码器得到特征\(z\)，同时冻结的SigLIP提取语义特征\(T\)。将\(T\)和\(z\)相加后进行向量量化：\(z_q = \text{Quant}(T + z)\)。量化后的特征分别送入两个解码器：(1) 语义解码器（Transformer）重建SigLIP特征，损失为\(L_{\text{sem}} = 1 - \cos(Dec_s(z_q), T)\)；(2) 图像解码器（ConvNet）重建原始像素，损失为\(L_{\text{img}} = \ell_2 + L_P + \lambda_G L_G\)（像素+感知+对抗）。总损失\(L = L_{\text{sem}} + L_{\text{img}} + L_{\text{vq}}\)。
设计动机：通过特征融合（而非对比学习）将语义注入量化码，避免了VILA-U的损失冲突。语义解码器确保量化码"记住"语义信息，图像解码器确保保留像素信息。codebook大小32768，维度8。
与VILA-U的关键区别：VILA-U用文本编码器提取语义+对比学习，会冲突；SDE直接用图像编码器（SigLIP）的特征做融合+重建，更稳定。
统一自回归建模:
做什么：将视觉离散token和文本token在同一个自回归模型中统一处理。
核心思路：在现有LLM（Qwen2.5/Yi-1.5）的embedding层扩展32768维（codebook大小），用<soi>和<eoi>标记视觉token的开始和结束。训练目标纯next-token prediction，不需要修改LLM架构。
设计动机：因为SDE token已经与语言对齐，无需额外的适配器或架构修改，可以直接利用预训练LLM的语言能力。这大大降低了训练复杂度。
两阶段训练:
预训练：在图文对数据上计算所有token的loss，学习视觉token的embedding并对齐。
指令微调：理解任务用SFT数据，只在回复部分计算loss；生成任务用反转的图文对（文字→图像），只在视觉token部分计算loss。

数据效率¶

MUSE-VL仅使用24M图文对，远少于Show-o (35M)和VILA-U (720M)，但理解性能更强。

实验关键数据¶

主实验（多模态理解）¶

模型	LLM	Token类型	MMBench	MMStar	SEED	MMMU	SQA-I	AI2D	MathVista	AVG
Chameleon-7B	7B from scratch	Discrete	31.1	31.1	30.6	25.4	46.8	46.0	22.3	33.3
Emu3-8B	8B from scratch	Discrete	58.5	46.6	68.2	31.6	89.2	70.0	47.6	58.8
LLaVA-NeXT-7B	Vicuna-7B	Continuous	67.4	37.6	70.2	35.8	70.1	66.6	34.6	54.6
LLaVA-NeXT-34B	Yi-34B	Continuous	79.3	51.6	75.9	51.1	81.8	78.9	46.5	66.4
MUSE-VL-7B	Qwen2.5-7B	Discrete	72.1	49.6	69.1	39.7	93.5	69.8	51.3	63.6
MUSE-VL-32B	Qwen2.5-32B	Discrete	81.8	56.7	71.0	50.1	95.0	79.9	55.9	70.1

Tokenizer对比（同LLM Yi-1.5-9B，同数据）:

Tokenizer	MMBench	SEED	MMStar	AVG
VQGAN	32.0	42.7	29.1	34.6
SEED	63.1	57.8	39.1	53.3
LaVIT	63.3	59.5	40.3	54.4
SDE (ours)	70.6	68.1	43.8	60.8

消融实验¶

图像分支	语义分支	rFID↓	MMBench	SEED	MMStar	AVG
✓	✗	2.63	42.8	48.5	38.1	43.1
✗	✓	-	72.5	67.5	48.1	62.7
✓	✓	2.26	72.1	69.1	49.6	63.6

关键发现¶

语义是关键差距：纯VQGAN tokenizer的VLM理解AVG只有34.6%，加入语义约束后飙升到60.8%（+26.2%）。这直接证明了离散token缺乏语义信息是统一VLM理解性能差的主因。
SDE比VQGAN理解提升20.5%，图像重建质量相当（rFID 2.26 vs 2.63），说明语义约束不仅没有损害生成能力反而改善了。
数据效率极高：24M数据 > VILA-U的720M数据，因为语义对齐大幅降低了LLM学习视觉token的难度。
良好的缩放特性：从7B到32B，性能持续提升（63.6→70.1 AVG）。
MUSE-VL-7B在SQA-I (93.5)和MathVista (51.3)上甚至超过了LLaVA-NeXT-34B，说明离散token方法在推理任务上有优势。
视觉码可视化显示同一语义概念（如猫耳朵、草莓）会被分配相同的code ID。

亮点与洞察¶

SDE的设计非常优雅：通过"语义特征融合+双分支解码"替代"对比学习"，避免了VILA-U的损失冲突问题。背后的洞察是——SigLIP图像编码器的特征已经隐式包含了与文本对齐的语义信息，不需要显式做对比学习，只需要在量化过程中"融入"并"保持"这些语义。
统一模型的范式简洁性：不改LLM架构、不加额外适配器、不需要diffusion model，纯next-token prediction。证明了只要tokenizer够好，统一模型可以极其简洁。
对统一VLM研究方向的启示：问题不在LLM架构，而在视觉tokenizer。好的tokenizer可以让简单方法超越复杂系统。

局限性 / 可改进方向¶

图像生成质量虽然超过之前的统一模型但仍不如SD-XL等专用扩散模型。
分辨率受限（256或384），更高分辨率可能需要更大codebook或多尺度方案。
SDE的語義編碼器（SigLIP）是冻结的，联合训练可能进一步提升但会增加复杂度。
仅用LLamaGEN的卷积decoder做图像重建，更强的decoder可能提升生成质量。

评分¶

新颖性: ⭐⭐⭐⭐ SDE tokenizer的设计新颖且解决了VQ tokenizer的核心语义缺失问题
实验充分度: ⭐⭐⭐⭐⭐ 7个理解benchmark + 2个生成benchmark，tokenizer对比，消融，缩放实验全面
写作质量: ⭐⭐⭐⭐ 清晰，问题定义准确
价值: ⭐⭐⭐⭐⭐ 为统一VLM提供了一条简洁高效的路径，SDE tokenizer可作为通用组件复用