跳转至

SemTok: Semantic One-Dimensional Tokenizer for Image Reconstruction and Generation

日期: 2026-03-17
arXiv: 2603.16373
领域: 图像生成
关键词: 1D图像token化, 语义对齐, MMDiT编码器, 自回归生成, BSQ量化, 紧凑表示

一句话总结

提出 SemTok,用 MMDiT 编码器将 2D 图像压缩为语义对齐的 1D 离散 token 序列(256 tokens / 256×256),通过 SigLIP 语义约束 + 两阶段生成式训练(扩散预训练 → 精细化微调)在 ImageNet 上 rFID 0.67 刷新 SOTA,其 masked AR 模型以 1.2B 参数达到 gFID 2.34 追平 VAR-d24。

研究背景与动机

  1. 领域现状: 视觉 tokenizer(VQVAE/VQGAN)将图像映射为离散潜在表示,供 AR 模型生成。主流方法将图像压缩为 2D spatial grid(如 16×16=256 tokens),每个 token 固定对应一个空间位置,保留了局部空间结构。

  2. 现有痛点: (a) 2D grid 冗余:相邻 patch 高度相关但独立编码——同一纹理区域的相邻 token 携带几乎相同信息,压缩效率低;(b) 缺乏语义约束:现有 tokenizer 只用像素级重建损失训练→token 携带低层纹理细节而非高层语义→不利于下游 AR 模型捕捉全局结构;(c) 2D 无自然序列顺序:AR 生成需定义 token 顺序,2D grid 必须用 raster scan 等人为顺序,引入归纳偏置。

  3. 核心矛盾: 紧凑性(更少 token)vs 重建保真度(更多细节) vs 语义质量(全局理解)三者难以兼得——2D tokenizer 在空间冗余上浪费了容量。

  4. 切入角度: 如果打破 2D 位置约束,让 token 自由编码全局语义而非局部像素,就能用更少的信息量捕获更丰富的语义。这需要三个配套创新:(a) 2D→1D 压缩架构 (b) 显式语义约束引导编码器学"什么该编码" (c) 生成式训练探索更丰富的潜在空间。

  5. 核心 idea 一句话: 2D→1D 压缩消除空间冗余 + SigLIP 语义约束引导编码器保留高层语义 + 扩散预训练探索多样化潜在空间后再精细化微调恢复纹理。

方法详解

整体框架

SemTok = 编码器 \(\mathcal{E}\) + 量化器 \(\mathcal{Q}\) + 解码器 \(\mathcal{D}\): - 输入: 图像 \(I \in \mathbb{R}^{H \times W \times 3}\),先过 SD3.5-VAE(下采样 8×)得到 latent \(x_v\) - 编码器: MMDiT,2D 分支输入 \(x_v\) 的 patch 化表示,1D 分支输入 \(K=256\) 个可学习 mask token \(z_m\)。双流通过 co-attention 交互后输出 1D tokens \(z \in \mathbb{R}^{K \times d}\) - 量化器: Binary Spherical Quantization (BSQ),将每个 token 映射到超球面上的二值向量 - 解码器: 更大的 MMDiT(用 SD3.5 预训练参数初始化),从 1D tokens 重建图像

关键设计

  1. MMDiT 2D→1D 编码器:

    • 做什么:将 2D 图像 latent 压缩为 \(K\) 个 1D 语义 token
    • 核心思路:MMDiT 的双分支设计天然适合处理两种"模态"——把 1D token 视为待填充的语义模态,2D patch 视为信息源。双流的 co-attention 让 1D token 从 2D patch 中"提取"所需信息。对 2D 分支用 2D RoPE、1D 分支用 1D RoPE
    • 设计动机:相比 TiTok 的 ViT 编码器 + 可学习查询方式,MMDiT 双流架构更自然地支持信息从 2D→1D 的流动——1D token 之间通过 self-attention 协作决定"谁编码什么"
  2. SigLIP 语义对齐约束:

    • 做什么:在编码器端直接施加语义监督,迫使 token 编码高层语义而非低层纹理
    • 核心思路:冻结的 SigLIP 编码器提取图像特征 \(x_{sig}\)。对 2D 分支施加空间蒸馏 \(\mathcal{L}_{distill} = \|x_{sig} - \boldsymbol{w}_x(x)\|^2\);对 1D 分支池化后做对比学习 \(\mathcal{L}_{contra}\),确保量化后的 \(\bar{z}\) 与 SigLIP 全局嵌入对齐
    • 设计动机:纯像素重建训练→编码器优先编码局部纹理;语义约束→编码器优先编码全局语义。论文可视化(Fig.6)显示有约束时特征空间出现明显语义聚类——无约束时杂乱无章
  3. Binary Spherical Quantization (BSQ):

    • 做什么:高效离散化,码本大小随通道维度指数增长
    • 核心思路:\(\mathcal{Q}(z) = \frac{1}{\sqrt{d}} \text{sign}(\frac{z}{\|z\|})\),每个通道映射为 ±1,码本索引 \(k = \sum_i \mathbb{1}(\bar{z}_i > 0) \cdot 2^{i-1}\)。无需存储显式码本
    • 设计动机:传统 VQ 码本内存 \(O(|\mathcal{C}| \cdot d)\),BSQ 码本大小 \(2^d\) 但不需额外存储——可以轻松扩展到 \(2^{32}\) 规模。STE 估计器反向传播
  4. 两阶段生成式训练:

    • Stage I (扩散预训练): 解码器用 flow matching 从噪声预测图像 latent,\(\mathcal{L}_{diff} = \mathbb{E}[\|x_v - \epsilon - \mathcal{D}(x_t, \bar{z}, t)\|^2]\)。联合优化编码器+量化器+解码器
    • 目的:扩散式训练在多个噪声尺度上优化似然→探索潜在空间的多样路径→避免分布坍塌
  5. Stage II (精细化微调): 将解码器的噪声输入替换为可学习 mask token,改用一步重建 + MSE/LPIPS/GAN 损失
    • 目的:Stage I 探索了丰富语义空间但缺乏像素细节;Stage II 补回高频纹理,且推理时仅需一步→大幅加速
  6. 消融验证:仅 Stage II(无预训练)rFID 1.80 vs 完整两阶段 0.88——预训练至关重要

实验关键数据

重建主实验(ImageNet 256×256)

方法 类型 #Token 码本 rFID↓ PSNR↑ bpp
VQGAN-re 2D 256 \(2^{14}\) 4.98 - 0.055
LlamaGen-16 2D 256 \(2^{14}\) 2.19 20.67 0.055
OpenMagViT-V2 2D 256 \(2^{18}\) 1.17 21.63 0.070
VAR 2D 680 \(2^{12}\) 0.99 22.12 0.125
TiTok-S-128 1D 128 \(2^{12}\) 1.71 17.52 0.023
FlowMo-Lo 1D 256 \(2^{18}\) 0.95 22.07 0.070
SemTok 1D 256 \(2^{18}\) 0.88 22.19 0.070
SemTok 1D 256 \(2^{32}\) 0.67 23.05 0.125

同等压缩率下(0.070 bpp)SemTok rFID 0.88 超越 FlowMo-Lo 0.95;扩大码本到 \(2^{32}\) 后 rFID 0.67 甚至超越连续 SD-VAE 的 1.35——离散 tokenizer 首次在全面指标上超越连续 VAE。

生成实验(ImageNet 256×256,class-conditional)

方法 类型 参数量 gFID↓ IS↑
DiT-XL/2 Diff. 675M 2.27 278.2
VAR-d24 AR 1.0B 2.09 312.9
LlamaGen-3B AR 3.1B 2.18 263.3
RandAR-XXL AR 1.4B 2.15 322.0
MaskGIT AR 227M 6.18 182.1
SemTok-AR-L AR 318M 2.77 293.1
SemTok-AR-XL AR 746M 2.54 305.6
SemTok-AR-XXL AR 1.2B 2.34 310.5

SemTok-AR-XXL (1.2B) 追平 VAR-d24 (1.0B)。相比同为 masked AR 的 MaskGIT (gFID 6.18),SemTok 语义 1D token 带来质的飞跃——说明 tokenizer 质量对 AR 生成至关重要。

消融实验

消融项 rFID↓ PSNR↑ gFID↓ IS↑
无语义约束 1.08 21.74 3.83 271.4
+对比损失 0.97 21.86 2.87 276.8
+蒸馏损失 1.02 21.79 3.55 264.9
+对比+蒸馏(full) 0.88 22.19 2.77 293.1

对比损失对生成影响最大(gFID 3.83→2.87),蒸馏损失对重建更关键。

训练策略 rFID↓ PSNR↑
仅 Stage II(无预训练) 1.80 20.54
Stage I + Stage II 0.88 22.19

序列建模消融

Token 顺序 rFID↓ gFID↓
Raster scan(顺序) 1.22 3.08
全局(非顺序/masked) 0.88 2.77

非顺序建模全面优于强制 raster 顺序——因为 1D 语义 token 之间是互补而非因果关系。

亮点与洞察

  • "2D 空间结构是枷锁"的核心洞察:2D grid 强迫每个 token 编码固定位置的局部信息——打破这个约束后,256 个 1D token 能携带更紧凑的全局语义。这一观点正被越来越多工作(TiTok、FlowMo、FlexTok)验证,SemTok 通过语义约束推到了新高度。
  • 语义约束改变编码器"学什么":Tab.4 消融和 Fig.6 特征聚类可视化清晰展示——无语义约束时,编码器优先编码局部纹理(对重建有利但对生成无利);有约束后,编码器学到聚类化的全局语义表示。这个 insight 可以迁移到视频/3D 等其他模态的 tokenizer。
  • 两阶段训练的解耦思路:扩散预训练负责"探索什么样的潜在空间是好的"(语义多样性),精细化微调负责"如何从潜在空间恢复到像素"(纹理保真度)——将语义学习和像素重建的矛盾优雅解耦。
  • BSQ 量化的扩展性:码本 \(2^{32}\)(40亿条目)但零额外存储——这使得极大码本成为可能。SemTok 展示了从 \(2^{18}\) 扩展到 \(2^{32}\) 的一致提升。

局限性 / 可改进方向

  • 仅验证 256×256 分辨率:更高分辨率(512/1024)下 1D token 数量是否需要线性增长?token 数量 vs 分辨率的 scaling law 未探索
  • 解码器过大(2.3B):编码器仅 113M 但解码器 2.2B——推理成本高。虽然 Stage II 改为一步推理,但模型体积仍是部署瓶颈
  • 未与端到端理解模型集成:SemTok 的语义 token 理论上更适合 VLM 理解/生成统一框架,但论文未验证
  • 码本大小消融不充分:只对比了 \(2^{18}\)\(2^{32}\),中间值的 scaling 曲线缺失

相关工作与启发

  • vs TiTok: 先驱性 1D tokenizer,128 token + VQ 量化 + 无语义约束,rFID 1.71。SemTok 在同等 token 数下通过语义约束和 BSQ 实现 rFID 0.88——说明压缩形式(1D)只是第一步,编码内容(语义 vs 纹理)才是关键
  • vs FlowMo-Lo: 同为 1D + LFQ + 256 token,rFID 0.95。SemTok 通过 SigLIP 语义约束额外获得 8% 提升——验证了显式语义监督的价值
  • vs VAR: VAR 用多尺度 2D token(680 个)+ 大码本实现 rFID 0.99,SemTok 用 256 个 1D token 实现 0.88——更紧凑更好。VAR 的 next-scale 预测思路与 SemTok 的 masked AR 是互补的

评分

  • 新颖性: ⭐⭐⭐⭐ 语义约束 + BSQ + 两阶段生成式训练的组合是系统性创新,每个组件都有明确消融支撑
  • 实验充分度: ⭐⭐⭐⭐⭐ 重建+生成双评估 + 全面消融(语义约束/训练策略/量化器/感知损失/序列顺序/AR 采样策略)
  • 写作质量: ⭐⭐⭐⭐ 五原则清晰,逻辑自洽,图表丰富
  • 价值: ⭐⭐⭐⭐⭐ 对 AR 图像生成方向有直接影响——1D 语义 tokenizer 可能成为新标准