Unified Multimodal Understanding via Byte-Pair Visual Encoding¶

会议: ICCV2025
arXiv: 2506.23639
代码: https://beingbeyond.github.io/Being-VL-0.5
领域: 多模态VLM
关键词: BPE Visual Tokenization, Discrete Visual Tokens, Multimodal LLM, Vocabulary Construction, Curriculum Training

一句话总结¶

将 NLP 中的 Byte-Pair Encoding (BPE) 策略应用于视觉 token 化，提出优先级引导的编码方案（融合频率和空间一致性）、课程式数据混合和渐进式参数解冻三阶段训练策略，构建的 Being-VL-0.5（8B）在离散 token 路线上接近连续 embedding 方法的主流水平。

研究背景与动机¶

领域现状：多模态大模型（MLLM）主要有两条路线：(a) 连续 embedding方法（LLaVA、Qwen-VL 等）使用预训练视觉编码器（如 CLIP）将图像映射为连续向量，通过投影层对齐到语言模型空间；(b) 离散 token 方法（Chameleon、Unified-IO-2）使用向量量化（VQ-GAN/VQVAE）将图像离散化为 token 序列，与文本 token 统一处理。

现有痛点： - 连续方法存在模态鸠沟（视觉编码器输出的高维连续特征与语言模型期望的离散 token 不匹配）和信息瓶颈（压缩过程丢失低频视觉细节，导致幻觉问题） - 离散方法虽然天然统一了多模态表示，但简单的 VQ 量化不考虑视觉内容的语义结构、关键视觉概念在 token 空间分布不均匀、且当前性能显著落后于连续方法

核心矛盾：NLP 中 BPE token 化已被证明能显著提升 Transformer 的学习效率，因为它将频繁共现的字符合并为语义丰富的 token。先前工作 (Being-VL-0) 已将 BPE 应用于视觉数据的理论框架，但从理论到实践的落地面临三个挑战：(1) 如何设计超越简单频率的编码策略；(2) 如何构建匹配 BPE 层次性的数据混合策略；(3) 如何设计多阶段训练流程。

本文目标：将 BPE 视觉 token 化从理论概念推进到实用化的多模态大模型，缩小离散 token 方法与连续 embedding 方法之间的性能差距。

切入角度：BPE 视觉 token 天然具有层次结构（底层 token 对应简单图像块，高层 token 编码越来越复杂的视觉模式），因此训练策略也应该是层次化/课程式的。

核心 idea：优先级引导的 BPE 词表构建（频率 + 空间一致性）+ 课程式数据混合 + 渐进式参数解冻 = 实用化离散视觉 token MLLM。

方法详解¶

整体框架¶

整体分为两个阶段。词表构建阶段：输入训练图像 → VQ-GAN 量化为离散 index 网格 → 优先级引导的 BPE 迭代合并相邻 token 对，扩展词表。模型训练阶段：输入图像 → VQ-GAN 量化 → BPE 编码（用构建好的词表）→ 视觉 token 与文本 token 拼接成统一序列 → 送入扩展后的 LLM 进行自回归建模。输出为文本 token 序列。

关键设计¶

优先级引导的 BPE 词表构建（Priority-Guided Encoding）:
- 功能：构建既考虑出现频率又考虑空间关系的 BPE 视觉词表
- 核心思路：定义优先级函数 \(P(a,b) = F(a,b) + \alpha \cdot S(a,b)\)，其中 \(F(a,b)\) 是 token 对 \((a,b)\) 的共现频率，\(S(a,b) = \frac{1}{N_{a,b}} \sum_{i=1}^{N_{a,b}} d(u_i(a,b), \bar{u}(a,b))\) 是空间一致性分数，衡量该 token 对在不同图像中的相对位置是否一致（用高斯核 \(d(u_1,u_2) = \exp(-\|u_1 - u_2\|^2 / 2\sigma^2)\) 度量）。每轮迭代选择优先级最高的 token 对合并为新 token，直到词表达到目标大小
- 设计动机：纯频率 BPE 在文本中有效的原因是文本是一维序列，但视觉数据是二维的，空间关系至关重要。一个 token 对即使频繁共现，如果其空间关系不一致（如在不同图像中位于不同相对位置），合并后的 token 缺乏稳定的语义含义
模型扩展（Model Expanding）:
- 功能：将预训练的文本 LLM 扩展为支持视觉 token 的多模态模型
- 核心思路：将 embedding 层从 \(|V_{\text{text}}|\) 扩展到 \(|V_{\text{text}}| + |D|\)（默认 8K VQ + 8K BPE = 16K 新 token），新增 embedding 使用 He 初始化。同步扩展 output head 的词表
- 设计动机：直接扩展词表而非使用额外的投影层，保持了统一 token 表示的简洁性
多阶段渐进式训练（Multi-Stage Training）:
- 功能：通过三阶段训练逐步释放模型容量
- 核心思路：
  - Stage 1 (Embedding Alignment)：仅训练新增的视觉 token embedding，冻结所有 LLM 参数。数据以基础 image-caption 对为主
  - Stage 2 (Selective Fine-tuning)：解冻前 25% 的 Transformer 层，数据逐渐加入感知任务（详细视觉属性描述）
  - Stage 3 (Full Fine-tuning)：解冻全部参数，数据侧重复杂推理和指令跟随任务
- 设计动机：BPE token 具有层次性——底层 token 对应简单图像块，高层 token 编码复杂视觉模式。训练也需要匹配这个层次：先让 token 学会基础语义映射，再逐步挑战复杂推理任务。这与直接全参数微调相比，避免了语言能力的灾难性遗忘

损失函数 / 训练策略¶

标准自回归交叉熵损失：\(\mathcal{L}(\theta) = -\mathbb{E}_{(X,I,Y) \sim \mathcal{D}} [\sum_{i=1}^{|Y|} \log p_\theta(y_i | y_{<i}, X, T(Q(I)))]\)。数据分为 Foundation、Perception、Reasoning、Instruction 四类，按课程式策略在三个阶段中调整混合比例。

实验关键数据¶

主实验¶

模型	Token类型	VQAv2	MMBench	MME-P	SciQA	POPE	VizWiz
Being-VL-0.5 (ours)	离散	80.2	71.8	1525.8	70.3	84.3	57.4
Being-VL-0.5+ (16K)	离散	80.6	72.1	1536.3	69.0	86.0	57.8
Being-VL-0 (前作)	离散	60.6	44.0	1316.2	64.3	81.3	48.2
w/o BPE	离散	54.3	38.2	1301.2	57.8	76.1	45.0
LLaVA-1.5	连续	78.5	64.3	1510.7	66.8	85.9	50.0
VILA-1.5	连续	80.9	72.3	-	-	84.4	58.7

消融实验¶

配置	Perception Avg	Reasoning Avg	说明
完整方案 (Curriculum + Progressive)	80.3	71.1	最优
仅 Progressive 解冻	74.9	65.1	无课程数据，掉 ~6%
仅 Curriculum 数据	76.8	67.5	无渐进解冻，掉 ~4%
单阶段训练	71.2	62.3	基线，掉 ~9%

关键发现¶

BPE 是核心贡献：去掉 BPE 词表（w/o BPE），模型在所有 benchmark 上大幅崩塌（VQAv2 从 80.2 降至 54.3），证明 BPE 视觉 token 化的关键性
词表大小的权衡：8K BPE 词表在效率和性能间达到最佳平衡，16K 词表有更高的 scaling potential 但当前数据量下存在未激活 token（embedding 可视化中出现白色条纹）
课程数据比渐进解冻更重要：消融实验中，仅去掉课程策略掉 6%，仅去掉渐进解冻掉 4%，说明 BPE token 的学习更依赖合理的数据排序
离散方法逼近连续方法：Being-VL-0.5 在 VQAv2 (80.2 vs 80.9) 和 MMBench (71.8 vs 72.3) 上已接近 VILA-1.5 等连续方法

亮点与洞察¶

将 NLP 的成功经验迁移到视觉：BPE 在文本 tokenization 中的巨大成功已被证明对 Transformer 学习至关重要。本文系统性地将这一思路扩展到二维视觉数据，弥补了此前从理论到实践的 gap
空间一致性是视觉 BPE 的 key insight：文本 BPE 只需考虑频率，但视觉数据的二维空间结构要求 token 对在不同图像中保持一致的空间关系。这个 insight 使视觉 BPE 不再是文本 BPE 的简单照搬
Embedding 可视化揭示统一表示空间：Figure 3 的 embedding 权重分布图清晰地展示了 BPE token 如何弥合视觉与文本 token 之间的表示差距，这是理解离散 token 方法工作原理的重要窗口

局限与展望¶

仅 8B 模型规模：受限于计算资源，未在更大模型上验证。scaling 分析暗示更大词表 + 更多数据可能进一步提升
仅做理解任务：离散 token 天然支持生成任务（可以像生成文本 token 一样生成视觉 token），但本文未涉及图像生成
VQ-GAN 是瓶颈：词表构建依赖 VQ-GAN 的量化质量，如果 VQ-GAN codebook 质量不高，后续 BPE 也难以补救
16K 词表未充分利用：embedding 可视化显示大量 BPE token 未被激活，说明当前数据量不足以支撑更大词表

评分¶

新颖性: ⭐⭐⭐⭐ 视觉 BPE 方向本身有前作铺垫，但优先级编码和训练策略是新贡献
实验充分度: ⭐⭐⭐⭐ 多个 benchmark + 详细消融 + 可视化分析，但缺少生成任务验证
写作质量: ⭐⭐⭐⭐ 结构清晰，理论和实践的衔接自然
价值: ⭐⭐⭐⭐ 证明了离散 token 路线的可行性，为统一多模态表示提供了实践路径