SemTok: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation¶
日期: 2026-03-17
arXiv: 2603.16373
领域: 图像生成
关键词: 1D图像token化, 语义对齐, MMDiT编码器, 自回归生成, BSQ量化, 紧凑表示
一句话总结¶
提出 SemTok,用 MMDiT 编码器将 2D 图像压缩为语义对齐的 1D 离散 token 序列(256 tokens / 256×256),通过 SigLIP 语义约束 + 两阶段生成式训练(扩散预训练 → 精细化微调)在 ImageNet 上 rFID 0.67 刷新 SOTA,其 masked AR 模型以 1.2B 参数达到 gFID 2.34 追平 VAR-d24。
研究背景与动机¶
-
领域现状: 视觉 tokenizer(VQVAE/VQGAN)将图像映射为离散潜在表示,供 AR 模型生成。主流方法将图像压缩为 2D spatial grid(如 16×16=256 tokens),每个 token 固定对应一个空间位置,保留了局部空间结构。
-
现有痛点: (a) 2D grid 冗余:相邻 patch 高度相关但独立编码——同一纹理区域的相邻 token 携带几乎相同信息,压缩效率低;(b) 缺乏语义约束:现有 tokenizer 只用像素级重建损失训练→token 携带低层纹理细节而非高层语义→不利于下游 AR 模型捕捉全局结构;(c) 2D 无自然序列顺序:AR 生成需定义 token 顺序,2D grid 必须用 raster scan 等人为顺序,引入归纳偏置。
-
核心矛盾: 紧凑性(更少 token)vs 重建保真度(更多细节) vs 语义质量(全局理解)三者难以兼得——2D tokenizer 在空间冗余上浪费了容量。
-
切入角度: 如果打破 2D 位置约束,让 token 自由编码全局语义而非局部像素,就能用更少的信息量捕获更丰富的语义。这需要三个配套创新:(a) 2D→1D 压缩架构 (b) 显式语义约束引导编码器学"什么该编码" (c) 生成式训练探索更丰富的潜在空间。
-
核心 idea 一句话: 2D→1D 压缩消除空间冗余 + SigLIP 语义约束引导编码器保留高层语义 + 扩散预训练探索多样化潜在空间后再精细化微调恢复纹理。
方法详解¶
整体框架¶
SemTok = 编码器 \(\mathcal{E}\) + 量化器 \(\mathcal{Q}\) + 解码器 \(\mathcal{D}\): - 输入: 图像 \(I \in \mathbb{R}^{H \times W \times 3}\),先过 SD3.5-VAE(下采样 8×)得到 latent \(x_v\) - 编码器: MMDiT,2D 分支输入 \(x_v\) 的 patch 化表示,1D 分支输入 \(K=256\) 个可学习 mask token \(z_m\)。双流通过 co-attention 交互后输出 1D tokens \(z \in \mathbb{R}^{K \times d}\) - 量化器: Binary Spherical Quantization (BSQ),将每个 token 映射到超球面上的二值向量 - 解码器: 更大的 MMDiT(用 SD3.5 预训练参数初始化),从 1D tokens 重建图像
关键设计¶
-
MMDiT 2D→1D 编码器:
- 做什么:将 2D 图像 latent 压缩为 \(K\) 个 1D 语义 token
- 核心思路:MMDiT 的双分支设计天然适合处理两种"模态"——把 1D token 视为待填充的语义模态,2D patch 视为信息源。双流的 co-attention 让 1D token 从 2D patch 中"提取"所需信息。对 2D 分支用 2D RoPE、1D 分支用 1D RoPE
- 设计动机:相比 TiTok 的 ViT 编码器 + 可学习查询方式,MMDiT 双流架构更自然地支持信息从 2D→1D 的流动——1D token 之间通过 self-attention 协作决定"谁编码什么"
-
SigLIP 语义对齐约束:
- 做什么:在编码器端直接施加语义监督,迫使 token 编码高层语义而非低层纹理
- 核心思路:冻结的 SigLIP 编码器提取图像特征 \(x_{sig}\)。对 2D 分支施加空间蒸馏 \(\mathcal{L}_{distill} = \|x_{sig} - \boldsymbol{w}_x(x)\|^2\);对 1D 分支池化后做对比学习 \(\mathcal{L}_{contra}\),确保量化后的 \(\bar{z}\) 与 SigLIP 全局嵌入对齐
- 设计动机:纯像素重建训练→编码器优先编码局部纹理;语义约束→编码器优先编码全局语义。论文可视化(Fig.6)显示有约束时特征空间出现明显语义聚类——无约束时杂乱无章
-
Binary Spherical Quantization (BSQ):
- 做什么:高效离散化,码本大小随通道维度指数增长
- 核心思路:\(\mathcal{Q}(z) = \frac{1}{\sqrt{d}} \text{sign}(\frac{z}{\|z\|})\),每个通道映射为 ±1,码本索引 \(k = \sum_i \mathbb{1}(\bar{z}_i > 0) \cdot 2^{i-1}\)。无需存储显式码本
- 设计动机:传统 VQ 码本内存 \(O(|\mathcal{C}| \cdot d)\),BSQ 码本大小 \(2^d\) 但不需额外存储——可以轻松扩展到 \(2^{32}\) 规模。STE 估计器反向传播
-
两阶段生成式训练:
- Stage I (扩散预训练): 解码器用 flow matching 从噪声预测图像 latent,\(\mathcal{L}_{diff} = \mathbb{E}[\|x_v - \epsilon - \mathcal{D}(x_t, \bar{z}, t)\|^2]\)。联合优化编码器+量化器+解码器
- 目的:扩散式训练在多个噪声尺度上优化似然→探索潜在空间的多样路径→避免分布坍塌
- Stage II (精细化微调): 将解码器的噪声输入替换为可学习 mask token,改用一步重建 + MSE/LPIPS/GAN 损失
- 目的:Stage I 探索了丰富语义空间但缺乏像素细节;Stage II 补回高频纹理,且推理时仅需一步→大幅加速
- 消融验证:仅 Stage II(无预训练)rFID 1.80 vs 完整两阶段 0.88——预训练至关重要
实验关键数据¶
重建主实验(ImageNet 256×256)¶
| 方法 | 类型 | #Token | 码本 | rFID↓ | PSNR↑ | bpp |
|---|---|---|---|---|---|---|
| VQGAN-re | 2D | 256 | \(2^{14}\) | 4.98 | - | 0.055 |
| LlamaGen-16 | 2D | 256 | \(2^{14}\) | 2.19 | 20.67 | 0.055 |
| OpenMagViT-V2 | 2D | 256 | \(2^{18}\) | 1.17 | 21.63 | 0.070 |
| VAR | 2D | 680 | \(2^{12}\) | 0.99 | 22.12 | 0.125 |
| TiTok-S-128 | 1D | 128 | \(2^{12}\) | 1.71 | 17.52 | 0.023 |
| FlowMo-Lo | 1D | 256 | \(2^{18}\) | 0.95 | 22.07 | 0.070 |
| SemTok | 1D | 256 | \(2^{18}\) | 0.88 | 22.19 | 0.070 |
| SemTok | 1D | 256 | \(2^{32}\) | 0.67 | 23.05 | 0.125 |
同等压缩率下(0.070 bpp)SemTok rFID 0.88 超越 FlowMo-Lo 0.95;扩大码本到 \(2^{32}\) 后 rFID 0.67 甚至超越连续 SD-VAE 的 1.35——离散 tokenizer 首次在全面指标上超越连续 VAE。
生成实验(ImageNet 256×256,class-conditional)¶
| 方法 | 类型 | 参数量 | gFID↓ | IS↑ |
|---|---|---|---|---|
| DiT-XL/2 | Diff. | 675M | 2.27 | 278.2 |
| VAR-d24 | AR | 1.0B | 2.09 | 312.9 |
| LlamaGen-3B | AR | 3.1B | 2.18 | 263.3 |
| RandAR-XXL | AR | 1.4B | 2.15 | 322.0 |
| MaskGIT | AR | 227M | 6.18 | 182.1 |
| SemTok-AR-L | AR | 318M | 2.77 | 293.1 |
| SemTok-AR-XL | AR | 746M | 2.54 | 305.6 |
| SemTok-AR-XXL | AR | 1.2B | 2.34 | 310.5 |
SemTok-AR-XXL (1.2B) 追平 VAR-d24 (1.0B)。相比同为 masked AR 的 MaskGIT (gFID 6.18),SemTok 语义 1D token 带来质的飞跃——说明 tokenizer 质量对 AR 生成至关重要。
消融实验¶
| 消融项 | rFID↓ | PSNR↑ | gFID↓ | IS↑ |
|---|---|---|---|---|
| 无语义约束 | 1.08 | 21.74 | 3.83 | 271.4 |
| +对比损失 | 0.97 | 21.86 | 2.87 | 276.8 |
| +蒸馏损失 | 1.02 | 21.79 | 3.55 | 264.9 |
| +对比+蒸馏(full) | 0.88 | 22.19 | 2.77 | 293.1 |
对比损失对生成影响最大(gFID 3.83→2.87),蒸馏损失对重建更关键。
| 训练策略 | rFID↓ | PSNR↑ |
|---|---|---|
| 仅 Stage II(无预训练) | 1.80 | 20.54 |
| Stage I + Stage II | 0.88 | 22.19 |
序列建模消融¶
| Token 顺序 | rFID↓ | gFID↓ |
|---|---|---|
| Raster scan(顺序) | 1.22 | 3.08 |
| 全局(非顺序/masked) | 0.88 | 2.77 |
非顺序建模全面优于强制 raster 顺序——因为 1D 语义 token 之间是互补而非因果关系。
亮点与洞察¶
- "2D 空间结构是枷锁"的核心洞察:2D grid 强迫每个 token 编码固定位置的局部信息——打破这个约束后,256 个 1D token 能携带更紧凑的全局语义。这一观点正被越来越多工作(TiTok、FlowMo、FlexTok)验证,SemTok 通过语义约束推到了新高度。
- 语义约束改变编码器"学什么":Tab.4 消融和 Fig.6 特征聚类可视化清晰展示——无语义约束时,编码器优先编码局部纹理(对重建有利但对生成无利);有约束后,编码器学到聚类化的全局语义表示。这个 insight 可以迁移到视频/3D 等其他模态的 tokenizer。
- 两阶段训练的解耦思路:扩散预训练负责"探索什么样的潜在空间是好的"(语义多样性),精细化微调负责"如何从潜在空间恢复到像素"(纹理保真度)——将语义学习和像素重建的矛盾优雅解耦。
- BSQ 量化的扩展性:码本 \(2^{32}\)(40亿条目)但零额外存储——这使得极大码本成为可能。SemTok 展示了从 \(2^{18}\) 扩展到 \(2^{32}\) 的一致提升。
局限性 / 可改进方向¶
- 仅验证 256×256 分辨率:更高分辨率(512/1024)下 1D token 数量是否需要线性增长?token 数量 vs 分辨率的 scaling law 未探索
- 解码器过大(2.3B):编码器仅 113M 但解码器 2.2B——推理成本高。虽然 Stage II 改为一步推理,但模型体积仍是部署瓶颈
- 未与端到端理解模型集成:SemTok 的语义 token 理论上更适合 VLM 理解/生成统一框架,但论文未验证
- 码本大小消融不充分:只对比了 \(2^{18}\) 和 \(2^{32}\),中间值的 scaling 曲线缺失
相关工作与启发¶
- vs TiTok: 先驱性 1D tokenizer,128 token + VQ 量化 + 无语义约束,rFID 1.71。SemTok 在同等 token 数下通过语义约束和 BSQ 实现 rFID 0.88——说明压缩形式(1D)只是第一步,编码内容(语义 vs 纹理)才是关键
- vs FlowMo-Lo: 同为 1D + LFQ + 256 token,rFID 0.95。SemTok 通过 SigLIP 语义约束额外获得 8% 提升——验证了显式语义监督的价值
- vs VAR: VAR 用多尺度 2D token(680 个)+ 大码本实现 rFID 0.99,SemTok 用 256 个 1D token 实现 0.88——更紧凑更好。VAR 的 next-scale 预测思路与 SemTok 的 masked AR 是互补的
评分¶
- 新颖性: ⭐⭐⭐⭐ 语义约束 + BSQ + 两阶段生成式训练的组合是系统性创新,每个组件都有明确消融支撑
- 实验充分度: ⭐⭐⭐⭐⭐ 重建+生成双评估 + 全面消融(语义约束/训练策略/量化器/感知损失/序列顺序/AR 采样策略)
- 写作质量: ⭐⭐⭐⭐ 五原则清晰,逻辑自洽,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 对 AR 图像生成方向有直接影响——1D 语义 tokenizer 可能成为新标准