UniCompress: Token Compression for Unified Vision-Language Understanding and Generation¶

日期: 2026-03-11
arXiv: 2603.11320
代码: 暂未看到公开仓库
领域: 多模态模型效率 / Token 压缩
关键词: token compression, unified model, global meta tokens, decompressor, plug-in

一句话总结¶

提出 UniCompress：在不改 LLM 主干的前提下，对统一视觉-语言模型加入“压缩器 + 全局元 token + 解压器”，把视觉 token 压缩到 1/4，同时保持理解任务小幅掉点，并把推理延迟最多降低 41.8%。

研究背景与动机¶

问题来源: 统一模型需要同一套视觉 token 同时服务“理解”和“生成”。
核心矛盾:
- 理解任务对 token 粒度相对不敏感
- 生成任务对细节和空间结构非常敏感
痛点: 直接剪枝/下采样虽然节省算力，但会显著伤害生成质量（文中指出可超过 15%）。

方法详解¶

整体思路¶

给现有 tokenizer 外挂三件套： - 全局语义提取器（global tokens） - 局部压缩器（pooling） - 全局引导解压器（autoregressive decompressor）

并采用两阶段训练： - Stage 1：只训 tokenizer 侧模块（压缩-重建） - Stage 2：冻结 tokenizer，微调 LLM 适应压缩 token

核心模块¶

Global Meta Tokens
用可学习 query 对密集视觉 token 做 cross-attention
提取 \(N_g\) 个全局 token，作为场景级语义锚点
压缩器
对视觉 token 网格做 \(s\times s\) 平均池化，序列长度从 \(T\) 变为 \(T/s^2\)
例：256 -> 64（4x 压缩）
全局引导解压器
输入：压缩后的局部 token + 全局 token
输出：恢复到高分辨率密集 token，再交给图像解码器
作用：补回压缩丢失的长程结构和细节纹理

实验关键数据¶

理解任务（示例）¶

方法	GQA	MME	POPE	Seed-bench
VARGPT	58.12	1290.65	88.04	50.54
VARGPT-Compressed	55.90	1272.80	84.99	48.41
BAGEL	60.05	1312.40	89.20	51.10
BAGEL-Compressed	59.10	1304.10	88.60	50.80

生成任务（示例）¶

方法	FID ↓	CLIP ↑
VARGPT	14.77	24.2
VARGPT-Compressed	15.02	21.6
BAGEL	12.73	32.0
BAGEL-Compressed	17.22	28.8

关键结论¶

4x 压缩下理解性能通常仅小幅下降
生成质量下降因模型而异，部分模型影响较明显
速度收益显著：推理延迟最高降低 41.8%，训练时间缩短 15.4%

亮点与洞察¶

不是单纯剪 token，而是“压缩 + 可恢复”思路，更符合统一模型需求
全局 token 对生成质量保持至关重要
插件式设计使其可迁移到多种统一模型，不用重训整个系统

局限性¶

固定压缩率（如 4x）在不同图像复杂度下可能不最优
部分模型生成质量损失仍偏大（如 BAGEL 的 FID 劣化）
还缺更系统的内容自适应压缩实验

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐（对统一模型落地非常实用）