跳转至

TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

会议: ICCV 2025
arXiv: 2503.16430
代码: https://yuqingwang1029.github.io/TokenBridge (项目页,代码暂无公开)
领域: 图像生成 / 自回归视觉生成
关键词: 自回归生成, 视觉Token化, 后训练量化, 离散-连续桥接, 维度级预测

一句话总结

TokenBridge提出对预训练VAE连续特征进行后训练维度级量化,将连续token无损转化为离散token,再通过轻量级维度级自回归头高效建模指数级大词表空间,在ImageNet 256×256上用标准交叉熵损失达到了与连续token方法(如MAR)相当的生成质量(FID=1.55),且推理快5.94倍。

背景与动机

自回归视觉生成模型依赖图像tokenizer将图像压缩为可序列预测的token。当前存在一个根本性的困境:

  • 离散token路线(VQ-VAE/VQGAN/LFQ/BSQ等):可以直接用标准交叉熵loss进行分类预测,建模简单。但量化过程不可微,需要梯度近似导致训练不稳定;有限的codebook容量无法充分捕捉细节,大codebook又面临利用率低和建模困难的问题。
  • 连续token路线(VAE latent):保留了丰富的视觉细节,通过KL正则化得到的连续latent质量很高。但无法直接用标准分类目标建模,需要引入扩散头(如MAR)或GMM(如GIVT)等复杂分布建模组件,增加了pipeline复杂度和推理开销。

现有方法要么牺牲质量(离散),要么牺牲简洁性(连续),两者难以兼得。

核心问题

如何在保持连续token高质量表示能力的同时,享受离散token建模简洁性的优势? 即:能否用标准交叉熵loss做分类预测,同时达到连续方法的生成质量?这个问题的关键难点在于:高保真的离散化需要极细的量化粒度,而这会导致词表空间呈指数增长(\(B^C\)种组合),标准softmax分类变得不可行。

方法详解

整体框架

TokenBridge颠覆了传统"在tokenizer训练中引入量化"的范式,改为先用预训练连续VAE提取高质量特征,再通过后训练量化将其转为离散token。整体框架包含两个核心组件: 1. 后训练维度级量化:对预训练VAE输出的连续特征\(\mathbf{X} \in \mathbb{R}^{H \times W \times C}\)(16×16×16),在每个通道维度独立进行非均匀量化,得到离散索引。 2. 维度级自回归预测头:在空间级自回归backbone之上,为每个空间位置附加一个轻量级通道级自回归头,将\(B^C\)的指数级大词表分解为\(C\)\(B\)分类问题的序列。

输入图像 → VAE编码器 → 连续特征 → 维度级量化 → 离散token序列 → Transformer backbone(空间级AR)+ AR head(维度级AR)→ 预测离散token → 反量化 → VAE解码器 → 生成图像。

关键设计

  1. 后训练维度级量化(Post-Training Dimension-wise Quantization)
  2. 核心思想:利用VAE特征受KL正则约束、近似高斯分布的特性,对每个通道维度独立量化。
  3. 先将特征值归一化到\([-r, r]\)\(r=3\),对应三个标准差),然后基于标准正态CDF将分布等概率划分为\(B\)个区间,这是一种非均匀量化——在高密度区域分配更多量化级别。
  4. 每个区间的重建值取该区间内的条件期望\(\gamma_i = \mathbb{E}[\xi | b_i \leq \xi < b_{i+1}]\)
  5. 反量化时将离散索引映射回对应的重建值再缩放回原始范围,直接送入预训练VAE解码器。
  6. 关键优势:完全不需要训练新的量化codebook;在\(B=64\)时重建rFID=1.11,与连续VAE完全持平;避免了VQ训练的梯度近似和codebook崩塌问题。

  7. 维度级自回归预测头(Dimension-wise Autoregressive Head)

  8. 问题:维度级量化后每个空间位置的token空间为\(B^C = 64^{16} \approx 10^{28}\),直接softmax分类不可行。
  9. 解决方案:将联合分布分解为条件分布的乘积:\(p(\mathbf{q}) = \prod_{c=1}^{C} p(q_c | \mathbf{q}_{<c}, \mathbf{z})\),其中\(\mathbf{z}\)是空间backbone提供的上下文特征。
  10. 实验验证了维度间存在强依赖关系:并行独立预测gFID=15.7,自回归预测gFID=1.94,差距8倍。
  11. AR head参数量很小(最终配置94M),所有空间位置共享同一个head。

  12. 频率引导的维度生成顺序

  13. 通过FFT分析每个通道的频谱特性,按低频能量占比从高到低排序维度。
  14. 先生成携带结构信息的低频维度,再生成细节的高频维度——"先结构后细节"。
  15. 效果:gFID从1.94提升到1.89,虽然改进不大但验证了生成顺序的重要性。

  16. 置信度引导生成:离散token天然具有softmax分类概率/置信度分数,可选择性生成高置信度token,自动产生清晰前景+简化背景的效果。这是连续方法(如MAR)无法提供的独特能力。

损失函数 / 训练策略

  • 损失:标准交叉熵(cross-entropy),应用于维度级token预测,每个维度是\(B=64\)类分类问题。无需扩散loss或GMM分布建模。
  • 架构:基于MAR的masked autoregressive架构(公平比较),L模型32块/1024宽(~400M),H模型40块/1280宽(~910M)。AR head用1024维/4层(L)或6层(H)的Transformer。
  • 训练配置:AdamW优化器,lr=4e-4,weight decay=0.02,batch size=2048,cosine decay schedule,warmup 200 epochs,共训练800 epochs(消融用400 epochs),bfloat16精度,EMA=0.9999。
  • 推理:温度采样(L: τ=0.97, H: τ=0.91),classifier-free guidance(L: 3.1, H: 3.45)。
  • 关键设计:推理时每生成完一个空间位置的完整token,立即反量化回连续特征再送入空间AR模型,保证backbone始终在原始VAE latent空间中操作。

实验关键数据

方法 类型 参数量 FID↓ IS↑
LlamaGen 离散VQ/AR 3.1B 2.18 263.3
GIVT-causal-L 连续GMM - 3.35 -
FlowAR-H 连续Flow ~1.9B 1.65 -
MAR-L 连续Diff 479M 1.78 296.0
MAR-H 连续Diff 943M 1.55 303.7
Ours-L 后量化离散/CE 486M 1.76 303.7
Ours-H 后量化离散/CE 1003M 1.55 323.1

推理速度对比(单图token预测,A100):

方法 时间 加速比
MAR(Diffusion 100步) 311.25ms
TokenBridge(AR 16步) 52.42ms 5.94×

重建质量(后训练量化 vs 连续VAE):

量化级别B rFID↓ IS↑
8 3.69 250.3
16 1.33 296.8
32 1.12 303.8
64 1.11 305.4
连续VAE 1.11 306.1

消融实验要点

  • 预测策略贡献最大:并行vs自回归,gFID从15.7降到1.94,8倍差距,说明通道间依赖关系极其关键。
  • 量化级别:B=16→32→64,gFID从2.03→1.98→1.94,越细越好但边际递减。
  • 频率排序:低频优先排序略优于默认顺序(gFID 1.89 vs 1.94)。
  • 通道分组无效:尝试2通道/4通道联合分类,词表暴增(256/65K类)且参数激增(63M/530M),但效果反而变差(gFID从2.28升到2.45/3.24),验证了维度级分解的合理性。
  • AR head规模:即使只有3M参数也能达到gFID=2.88,94M参数达到1.94。head很轻量但很有效。
  • 量化方式鲁棒:线性量化也能取得不错效果,非均匀量化只是略优,说明方法对量化策略不敏感。
  • 跨架构泛化:VAVAE(B=128, rFID=0.28→0.28)和DCAE(B=64, rFID=0.77→0.77)均精确匹配原始重建质量。

亮点

  • 范式创新:跳出了"在tokenizer训练中做量化"的思维定式,用后训练量化优雅地桥接了离散和连续两个世界。思路简洁但非常有效。
  • 维度间依赖的关键实验:并行vs自回归的8倍FID差距是本文最有说服力的实验发现,清晰地证明了维度间依赖建模的必要性。
  • 5.94倍速度提升:相比MAR的扩散头(100步迭代采样),TokenBridge的AR head只需16步顺序预测,显著更快。如果用4通道VAE(如SDXL),步数可进一步减少到4步。
  • 置信度引导生成:不需要额外控制模块,直接利用离散预测的分类概率做前景/背景分离式生成。
  • 对齐LLM范式:全程使用标准分类预测+交叉熵损失,天然适配LLM的next-token prediction框架,有利于统一多模态建模。

局限性 / 可改进方向

  • 依赖预训练VAE质量:方法的上限受限于底层VAE的表示能力,VAE的缺陷会直接传递。但反过来说,VAE的改进也能直接带来收益。
  • 仅验证了256×256分辨率:更高分辨率的生成效果未知。
  • 维度级AR增加延迟:虽然比扩散头快6倍,但每个空间位置需要16步顺序预测,仍然比直接单步分类慢。减少通道数(如用SDXL 4ch VAE)或探索部分并行是优化方向。
  • 仅做了类条件生成:文本条件(text-to-image)的效果未验证,离散token在多模态统一架构中的实际表现有待探索。

与相关工作的对比

  • vs MAR:MAR用扩散头对连续token建模,生成质量高但推理慢(100步采样)且需要额外的扩散训练。TokenBridge通过后训练量化+AR head达到相同FID(1.55),推理快5.94倍,training pipeline更简单。
  • vs LlamaGen/VQGAN:传统离散方法在tokenizer训练时就引入量化,面临codebook崩塌、梯度近似不稳定等问题。TokenBridge完全绕开这些问题,用更少参数(486M vs 3.1B)取得更好的FID(1.76 vs 2.18)。
  • vs GIVT:GIVT用GMM建模连续token的分布,需要额外的GMM参数和采样步骤。TokenBridge在FID上大幅优于GIVT(1.76 vs 3.35),且建模更简单。

启发与关联

  • 后训练量化的思路可以迁移到视频生成——视频VAE的连续特征同样可以后量化离散化,实现高效自回归视频生成。
  • 维度级AR分解思想可以用于VLM中的视觉token预测,减少visual vocabulary size的压力。
  • task_aware_token_compression idea有关:TokenBridge展示了token表示形式的灵活转换,这种"连续↔离散"的桥接思想可能启发更灵活的token压缩策略。
  • 置信度引导生成的能力暗示了一种新的可控生成范式——不需要额外的控制模块,直接利用离散预测的概率分布做生成控制。

评分

  • 新颖性: ⭐⭐⭐⭐ 后训练量化桥接离散/连续token的思路很巧妙,但核心组件(标量量化、小AR head)单独来看并不复杂
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融非常全面,涵盖量化粒度、预测策略、通道分组、head容量、维度顺序、不同AE泛化等多个维度
  • 写作质量: ⭐⭐⭐⭐ 论文组织清晰,motivation表述到位,图表设计好
  • 价值: ⭐⭐⭐⭐ 为自回归视觉生成提供了更简洁的方案,对统一多模态框架有启发意义