SemTok: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation¶

日期: 2026-03-17
arXiv: 2603.16373
领域: 图像生成
关键词: 1D图像token化, 语义对齐, MMDiT编码器, 自回归生成, BSQ量化, 紧凑表示

一句话总结¶

提出 SemTok，用 MMDiT 编码器将 2D 图像压缩为语义对齐的 1D 离散 token 序列（256 tokens / 256×256），通过 SigLIP 语义约束 + 两阶段生成式训练（扩散预训练 → 精细化微调）在 ImageNet 上 rFID 0.67 刷新 SOTA，其 masked AR 模型以 1.2B 参数达到 gFID 2.34 追平 VAR-d24。

研究背景与动机¶

领域现状: 视觉 tokenizer（VQVAE/VQGAN）将图像映射为离散潜在表示，供 AR 模型生成。主流方法将图像压缩为 2D spatial grid（如 16×16=256 tokens），每个 token 固定对应一个空间位置，保留了局部空间结构。
现有痛点: (a) 2D grid 冗余：相邻 patch 高度相关但独立编码——同一纹理区域的相邻 token 携带几乎相同信息，压缩效率低；(b) 缺乏语义约束：现有 tokenizer 只用像素级重建损失训练→token 携带低层纹理细节而非高层语义→不利于下游 AR 模型捕捉全局结构；(c) 2D 无自然序列顺序：AR 生成需定义 token 顺序，2D grid 必须用 raster scan 等人为顺序，引入归纳偏置。
核心矛盾: 紧凑性（更少 token）vs 重建保真度（更多细节） vs 语义质量（全局理解）三者难以兼得——2D tokenizer 在空间冗余上浪费了容量。
切入角度: 如果打破 2D 位置约束，让 token 自由编码全局语义而非局部像素，就能用更少的信息量捕获更丰富的语义。这需要三个配套创新：(a) 2D→1D 压缩架构 (b) 显式语义约束引导编码器学"什么该编码" (c) 生成式训练探索更丰富的潜在空间。
核心 idea 一句话: 2D→1D 压缩消除空间冗余 + SigLIP 语义约束引导编码器保留高层语义 + 扩散预训练探索多样化潜在空间后再精细化微调恢复纹理。

方法详解¶

整体框架¶

SemTok = 编码器 \(\mathcal{E}\) + 量化器 \(\mathcal{Q}\) + 解码器 \(\mathcal{D}\)： - 输入: 图像 \(I \in \mathbb{R}^{H \times W \times 3}\)，先过 SD3.5-VAE（下采样 8×）得到 latent \(x_v\) - 编码器: MMDiT，2D 分支输入 \(x_v\) 的 patch 化表示，1D 分支输入 \(K=256\) 个可学习 mask token \(z_m\)。双流通过 co-attention 交互后输出 1D tokens \(z \in \mathbb{R}^{K \times d}\) - 量化器: Binary Spherical Quantization (BSQ)，将每个 token 映射到超球面上的二值向量 - 解码器: 更大的 MMDiT（用 SD3.5 预训练参数初始化），从 1D tokens 重建图像

关键设计¶

MMDiT 2D→1D 编码器:
- 做什么：将 2D 图像 latent 压缩为 \(K\) 个 1D 语义 token
- 核心思路：MMDiT 的双分支设计天然适合处理两种"模态"——把 1D token 视为待填充的语义模态，2D patch 视为信息源。双流的 co-attention 让 1D token 从 2D patch 中"提取"所需信息。对 2D 分支用 2D RoPE、1D 分支用 1D RoPE
- 设计动机：相比 TiTok 的 ViT 编码器 + 可学习查询方式，MMDiT 双流架构更自然地支持信息从 2D→1D 的流动——1D token 之间通过 self-attention 协作决定"谁编码什么"
SigLIP 语义对齐约束:
- 做什么：在编码器端直接施加语义监督，迫使 token 编码高层语义而非低层纹理
- 核心思路：冻结的 SigLIP 编码器提取图像特征 \(x_{sig}\)。对 2D 分支施加空间蒸馏 \(\mathcal{L}_{distill} = \|x_{sig} - \boldsymbol{w}_x(x)\|^2\)；对 1D 分支池化后做对比学习 \(\mathcal{L}_{contra}\)，确保量化后的 \(\bar{z}\) 与 SigLIP 全局嵌入对齐
- 设计动机：纯像素重建训练→编码器优先编码局部纹理；语义约束→编码器优先编码全局语义。论文可视化（Fig.6）显示有约束时特征空间出现明显语义聚类——无约束时杂乱无章
Binary Spherical Quantization (BSQ):
- 做什么：高效离散化，码本大小随通道维度指数增长
- 核心思路：\(\mathcal{Q}(z) = \frac{1}{\sqrt{d}} \text{sign}(\frac{z}{\|z\|})\)，每个通道映射为 ±1，码本索引 \(k = \sum_i \mathbb{1}(\bar{z}_i > 0) \cdot 2^{i-1}\)。无需存储显式码本
- 设计动机：传统 VQ 码本内存 \(O(|\mathcal{C}| \cdot d)\)，BSQ 码本大小 \(2^d\) 但不需额外存储——可以轻松扩展到 \(2^{32}\) 规模。STE 估计器反向传播
两阶段生成式训练:
- Stage I (扩散预训练): 解码器用 flow matching 从噪声预测图像 latent，\(\mathcal{L}_{diff} = \mathbb{E}[\|x_v - \epsilon - \mathcal{D}(x_t, \bar{z}, t)\|^2]\)。联合优化编码器+量化器+解码器
- 目的：扩散式训练在多个噪声尺度上优化似然→探索潜在空间的多样路径→避免分布坍塌
Stage II (精细化微调): 将解码器的噪声输入替换为可学习 mask token，改用一步重建 + MSE/LPIPS/GAN 损失
- 目的：Stage I 探索了丰富语义空间但缺乏像素细节；Stage II 补回高频纹理，且推理时仅需一步→大幅加速
消融验证：仅 Stage II（无预训练）rFID 1.80 vs 完整两阶段 0.88——预训练至关重要

实验关键数据¶

重建主实验（ImageNet 256×256）¶

方法	类型	#Token	码本	rFID↓	PSNR↑	bpp
VQGAN-re	2D	256	\(2^{14}\)	4.98	-	0.055
LlamaGen-16	2D	256	\(2^{14}\)	2.19	20.67	0.055
OpenMagViT-V2	2D	256	\(2^{18}\)	1.17	21.63	0.070
VAR	2D	680	\(2^{12}\)	0.99	22.12	0.125
TiTok-S-128	1D	128	\(2^{12}\)	1.71	17.52	0.023
FlowMo-Lo	1D	256	\(2^{18}\)	0.95	22.07	0.070
SemTok	1D	256	\(2^{18}\)	0.88	22.19	0.070
SemTok	1D	256	\(2^{32}\)	0.67	23.05	0.125

同等压缩率下（0.070 bpp）SemTok rFID 0.88 超越 FlowMo-Lo 0.95；扩大码本到 \(2^{32}\) 后 rFID 0.67 甚至超越连续 SD-VAE 的 1.35——离散 tokenizer 首次在全面指标上超越连续 VAE。

生成实验（ImageNet 256×256，class-conditional）¶

方法	类型	参数量	gFID↓	IS↑
DiT-XL/2	Diff.	675M	2.27	278.2
VAR-d24	AR	1.0B	2.09	312.9
LlamaGen-3B	AR	3.1B	2.18	263.3
RandAR-XXL	AR	1.4B	2.15	322.0
MaskGIT	AR	227M	6.18	182.1
SemTok-AR-L	AR	318M	2.77	293.1
SemTok-AR-XL	AR	746M	2.54	305.6
SemTok-AR-XXL	AR	1.2B	2.34	310.5

SemTok-AR-XXL (1.2B) 追平 VAR-d24 (1.0B)。相比同为 masked AR 的 MaskGIT (gFID 6.18)，SemTok 语义 1D token 带来质的飞跃——说明 tokenizer 质量对 AR 生成至关重要。

消融实验¶

消融项	rFID↓	PSNR↑	gFID↓	IS↑
无语义约束	1.08	21.74	3.83	271.4
+对比损失	0.97	21.86	2.87	276.8
+蒸馏损失	1.02	21.79	3.55	264.9
+对比+蒸馏（full）	0.88	22.19	2.77	293.1

对比损失对生成影响最大（gFID 3.83→2.87），蒸馏损失对重建更关键。

训练策略	rFID↓	PSNR↑
仅 Stage II（无预训练）	1.80	20.54
Stage I + Stage II	0.88	22.19

序列建模消融¶

Token 顺序	rFID↓	gFID↓
Raster scan（顺序）	1.22	3.08
全局（非顺序/masked）	0.88	2.77

非顺序建模全面优于强制 raster 顺序——因为 1D 语义 token 之间是互补而非因果关系。

亮点与洞察¶

"2D 空间结构是枷锁"的核心洞察：2D grid 强迫每个 token 编码固定位置的局部信息——打破这个约束后，256 个 1D token 能携带更紧凑的全局语义。这一观点正被越来越多工作（TiTok、FlowMo、FlexTok）验证，SemTok 通过语义约束推到了新高度。
语义约束改变编码器"学什么"：Tab.4 消融和 Fig.6 特征聚类可视化清晰展示——无语义约束时，编码器优先编码局部纹理（对重建有利但对生成无利）；有约束后，编码器学到聚类化的全局语义表示。这个 insight 可以迁移到视频/3D 等其他模态的 tokenizer。
两阶段训练的解耦思路：扩散预训练负责"探索什么样的潜在空间是好的"（语义多样性），精细化微调负责"如何从潜在空间恢复到像素"（纹理保真度）——将语义学习和像素重建的矛盾优雅解耦。
BSQ 量化的扩展性：码本 \(2^{32}\)（40亿条目）但零额外存储——这使得极大码本成为可能。SemTok 展示了从 \(2^{18}\) 扩展到 \(2^{32}\) 的一致提升。

局限性 / 可改进方向¶

仅验证 256×256 分辨率：更高分辨率（512/1024）下 1D token 数量是否需要线性增长？token 数量 vs 分辨率的 scaling law 未探索
解码器过大（2.3B）：编码器仅 113M 但解码器 2.2B——推理成本高。虽然 Stage II 改为一步推理，但模型体积仍是部署瓶颈
未与端到端理解模型集成：SemTok 的语义 token 理论上更适合 VLM 理解/生成统一框架，但论文未验证
码本大小消融不充分：只对比了 \(2^{18}\) 和 \(2^{32}\)，中间值的 scaling 曲线缺失

评分¶

新颖性: ⭐⭐⭐⭐ 语义约束 + BSQ + 两阶段生成式训练的组合是系统性创新，每个组件都有明确消融支撑
实验充分度: ⭐⭐⭐⭐⭐ 重建+生成双评估 + 全面消融（语义约束/训练策略/量化器/感知损失/序列顺序/AR 采样策略）
写作质量: ⭐⭐⭐⭐ 五原则清晰，逻辑自洽，图表丰富
价值: ⭐⭐⭐⭐⭐ 对 AR 图像生成方向有直接影响——1D 语义 tokenizer 可能成为新标准