TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation¶

会议: ICCV 2025
arXiv: 2503.16430
代码: https://yuqingwang1029.github.io/TokenBridge (项目页，代码暂无公开)
领域: 图像生成 / 自回归视觉生成
关键词: 自回归生成, 视觉Token化, 后训练量化, 离散-连续桥接, 维度级预测

一句话总结¶

TokenBridge提出对预训练VAE连续特征进行后训练维度级量化，将连续token无损转化为离散token，再通过轻量级维度级自回归头高效建模指数级大词表空间，在ImageNet 256×256上用标准交叉熵损失达到了与连续token方法（如MAR）相当的生成质量（FID=1.55），且推理快5.94倍。

背景与动机¶

自回归视觉生成模型依赖图像tokenizer将图像压缩为可序列预测的token。当前存在一个根本性的困境：

离散token路线（VQ-VAE/VQGAN/LFQ/BSQ等）：可以直接用标准交叉熵loss进行分类预测，建模简单。但量化过程不可微，需要梯度近似导致训练不稳定；有限的codebook容量无法充分捕捉细节，大codebook又面临利用率低和建模困难的问题。
连续token路线（VAE latent）：保留了丰富的视觉细节，通过KL正则化得到的连续latent质量很高。但无法直接用标准分类目标建模，需要引入扩散头（如MAR）或GMM（如GIVT）等复杂分布建模组件，增加了pipeline复杂度和推理开销。

现有方法要么牺牲质量（离散），要么牺牲简洁性（连续），两者难以兼得。

核心问题¶

如何在保持连续token高质量表示能力的同时，享受离散token建模简洁性的优势？ 即：能否用标准交叉熵loss做分类预测，同时达到连续方法的生成质量？这个问题的关键难点在于：高保真的离散化需要极细的量化粒度，而这会导致词表空间呈指数增长（\(B^C\)种组合），标准softmax分类变得不可行。

方法详解¶

整体框架¶

TokenBridge颠覆了传统"在tokenizer训练中引入量化"的范式，改为先用预训练连续VAE提取高质量特征，再通过后训练量化将其转为离散token。整体框架包含两个核心组件： 1. 后训练维度级量化：对预训练VAE输出的连续特征\(\mathbf{X} \in \mathbb{R}^{H \times W \times C}\)（16×16×16），在每个通道维度独立进行非均匀量化，得到离散索引。 2. 维度级自回归预测头：在空间级自回归backbone之上，为每个空间位置附加一个轻量级通道级自回归头，将\(B^C\)的指数级大词表分解为\(C\)个\(B\)分类问题的序列。

输入图像 → VAE编码器 → 连续特征 → 维度级量化 → 离散token序列 → Transformer backbone（空间级AR）+ AR head（维度级AR）→ 预测离散token → 反量化 → VAE解码器 → 生成图像。

关键设计¶

后训练维度级量化（Post-Training Dimension-wise Quantization）：
核心思想：利用VAE特征受KL正则约束、近似高斯分布的特性，对每个通道维度独立量化。
先将特征值归一化到\([-r, r]\)（\(r=3\)，对应三个标准差），然后基于标准正态CDF将分布等概率划分为\(B\)个区间，这是一种非均匀量化——在高密度区域分配更多量化级别。
每个区间的重建值取该区间内的条件期望\(\gamma_i = \mathbb{E}[\xi | b_i \leq \xi < b_{i+1}]\)。
反量化时将离散索引映射回对应的重建值再缩放回原始范围，直接送入预训练VAE解码器。
关键优势：完全不需要训练新的量化codebook；在\(B=64\)时重建rFID=1.11，与连续VAE完全持平；避免了VQ训练的梯度近似和codebook崩塌问题。
维度级自回归预测头（Dimension-wise Autoregressive Head）：
问题：维度级量化后每个空间位置的token空间为\(B^C = 64^{16} \approx 10^{28}\)，直接softmax分类不可行。
解决方案：将联合分布分解为条件分布的乘积：\(p(\mathbf{q}) = \prod_{c=1}^{C} p(q_c | \mathbf{q}_{<c}, \mathbf{z})\)，其中\(\mathbf{z}\)是空间backbone提供的上下文特征。
实验验证了维度间存在强依赖关系：并行独立预测gFID=15.7，自回归预测gFID=1.94，差距8倍。
AR head参数量很小（最终配置94M），所有空间位置共享同一个head。
频率引导的维度生成顺序：
通过FFT分析每个通道的频谱特性，按低频能量占比从高到低排序维度。
先生成携带结构信息的低频维度，再生成细节的高频维度——"先结构后细节"。
效果：gFID从1.94提升到1.89，虽然改进不大但验证了生成顺序的重要性。
置信度引导生成：离散token天然具有softmax分类概率/置信度分数，可选择性生成高置信度token，自动产生清晰前景+简化背景的效果。这是连续方法（如MAR）无法提供的独特能力。

损失函数 / 训练策略¶

损失：标准交叉熵（cross-entropy），应用于维度级token预测，每个维度是\(B=64\)类分类问题。无需扩散loss或GMM分布建模。
架构：基于MAR的masked autoregressive架构（公平比较），L模型32块/1024宽（~400M），H模型40块/1280宽（~910M）。AR head用1024维/4层(L)或6层(H)的Transformer。
训练配置：AdamW优化器，lr=4e-4，weight decay=0.02，batch size=2048，cosine decay schedule，warmup 200 epochs，共训练800 epochs（消融用400 epochs），bfloat16精度，EMA=0.9999。
推理：温度采样（L: τ=0.97, H: τ=0.91），classifier-free guidance（L: 3.1, H: 3.45）。
关键设计：推理时每生成完一个空间位置的完整token，立即反量化回连续特征再送入空间AR模型，保证backbone始终在原始VAE latent空间中操作。

实验关键数据¶

方法	类型	参数量	FID↓	IS↑
LlamaGen	离散VQ/AR	3.1B	2.18	263.3
GIVT-causal-L	连续GMM	-	3.35	-
FlowAR-H	连续Flow	~1.9B	1.65	-
MAR-L	连续Diff	479M	1.78	296.0
MAR-H	连续Diff	943M	1.55	303.7
Ours-L	后量化离散/CE	486M	1.76	303.7
Ours-H	后量化离散/CE	1003M	1.55	323.1

推理速度对比（单图token预测，A100）：

方法	时间	加速比
MAR（Diffusion 100步）	311.25ms	1×
TokenBridge（AR 16步）	52.42ms	5.94×

重建质量（后训练量化 vs 连续VAE）：

量化级别B	rFID↓	IS↑
8	3.69	250.3
16	1.33	296.8
32	1.12	303.8
64	1.11	305.4
连续VAE	1.11	306.1

消融实验要点¶

预测策略贡献最大：并行vs自回归，gFID从15.7降到1.94，8倍差距，说明通道间依赖关系极其关键。
量化级别：B=16→32→64，gFID从2.03→1.98→1.94，越细越好但边际递减。
频率排序：低频优先排序略优于默认顺序（gFID 1.89 vs 1.94）。
通道分组无效：尝试2通道/4通道联合分类，词表暴增（256/65K类）且参数激增（63M/530M），但效果反而变差（gFID从2.28升到2.45/3.24），验证了维度级分解的合理性。
AR head规模：即使只有3M参数也能达到gFID=2.88，94M参数达到1.94。head很轻量但很有效。
量化方式鲁棒：线性量化也能取得不错效果，非均匀量化只是略优，说明方法对量化策略不敏感。
跨架构泛化：VAVAE（B=128, rFID=0.28→0.28）和DCAE（B=64, rFID=0.77→0.77）均精确匹配原始重建质量。

亮点¶

范式创新：跳出了"在tokenizer训练中做量化"的思维定式，用后训练量化优雅地桥接了离散和连续两个世界。思路简洁但非常有效。
维度间依赖的关键实验：并行vs自回归的8倍FID差距是本文最有说服力的实验发现，清晰地证明了维度间依赖建模的必要性。
5.94倍速度提升：相比MAR的扩散头（100步迭代采样），TokenBridge的AR head只需16步顺序预测，显著更快。如果用4通道VAE（如SDXL），步数可进一步减少到4步。
置信度引导生成：不需要额外控制模块，直接利用离散预测的分类概率做前景/背景分离式生成。
对齐LLM范式：全程使用标准分类预测+交叉熵损失，天然适配LLM的next-token prediction框架，有利于统一多模态建模。

局限性 / 可改进方向¶

依赖预训练VAE质量：方法的上限受限于底层VAE的表示能力，VAE的缺陷会直接传递。但反过来说，VAE的改进也能直接带来收益。
仅验证了256×256分辨率：更高分辨率的生成效果未知。
维度级AR增加延迟：虽然比扩散头快6倍，但每个空间位置需要16步顺序预测，仍然比直接单步分类慢。减少通道数（如用SDXL 4ch VAE）或探索部分并行是优化方向。
仅做了类条件生成：文本条件（text-to-image）的效果未验证，离散token在多模态统一架构中的实际表现有待探索。

与相关工作的对比¶

vs MAR：MAR用扩散头对连续token建模，生成质量高但推理慢（100步采样）且需要额外的扩散训练。TokenBridge通过后训练量化+AR head达到相同FID（1.55），推理快5.94倍，training pipeline更简单。
vs LlamaGen/VQGAN：传统离散方法在tokenizer训练时就引入量化，面临codebook崩塌、梯度近似不稳定等问题。TokenBridge完全绕开这些问题，用更少参数（486M vs 3.1B）取得更好的FID（1.76 vs 2.18）。
vs GIVT：GIVT用GMM建模连续token的分布，需要额外的GMM参数和采样步骤。TokenBridge在FID上大幅优于GIVT（1.76 vs 3.35），且建模更简单。

启发与关联¶

后训练量化的思路可以迁移到视频生成——视频VAE的连续特征同样可以后量化离散化，实现高效自回归视频生成。
维度级AR分解思想可以用于VLM中的视觉token预测，减少visual vocabulary size的压力。
与 task_aware_token_compression idea有关：TokenBridge展示了token表示形式的灵活转换，这种"连续↔离散"的桥接思想可能启发更灵活的token压缩策略。
置信度引导生成的能力暗示了一种新的可控生成范式——不需要额外的控制模块，直接利用离散预测的概率分布做生成控制。

评分¶

新颖性: ⭐⭐⭐⭐ 后训练量化桥接离散/连续token的思路很巧妙，但核心组件（标量量化、小AR head）单独来看并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 消融非常全面，涵盖量化粒度、预测策略、通道分组、head容量、维度顺序、不同AE泛化等多个维度
写作质量: ⭐⭐⭐⭐ 论文组织清晰，motivation表述到位，图表设计好
价值: ⭐⭐⭐⭐ 为自回归视觉生成提供了更简洁的方案，对统一多模态框架有启发意义