SeiT++: Masked Token Modeling Improves Storage-Efficient Training¶

会议: ECCV 2024
arXiv: 2312.10105
代码: 有 (https://github.com/naver-ai/seit)
领域: 分割 / 图像分类
关键词: 存储高效训练, 向量量化, 掩码建模, 数据增强, 自监督学习

一句话总结¶

在 SeiT 的 token 化训练框架上引入掩码 token 建模（MTM）自监督预训练，并设计 TokenAdapt 和 ColorAdapt 两种 token 专用数据增强策略，在仅 1% 存储空间（1.4GB）下将 ImageNet-1k 分类准确率从 74.0% 提升至 77.8%，有效解决了 token 域数据增强的难题。

研究背景与动机¶

训练高性能视觉模型需要海量数据集，带来巨大的存储压力（如 LAION-5B 需要 240TB）。现有存储缩减方法包括：

方法	思路	局限性
数据集蒸馏	将数据集压缩为小型合成集	计算复杂度高，不适用于大规模数据
采样方法	选择最具代表性的子集	低数据量时多样性不足
降低分辨率/JPEG压缩	减小单张图像大小	性能显著下降
SeiT	将图像转为离散 token 存储	90%性能，1%存储，但仅限全监督

SeiT 的突破性在于使用 ViT-VQGAN tokenizer 将每张图像压缩为 token 序列，使 ImageNet-1k 从 140GB 压缩至 1.4GB。但 SeiT 存在两个关键局限：

仅探索了全监督学习，未利用自监督预训练的潜力

Token 域的数据增强受限——像素级增强直接应用到 token 会导致严重失真

方法详解¶

整体框架¶

SeiT++ = Masked Token Modeling (MTM) + TokenAdapt + ColorAdapt

数据准备：使用 ViT-VQGAN tokenizer 将每张图像离线转换为 token 序列存储

预训练阶段：使用 MTM 进行自监督预训练（无需标签）

微调阶段：在 token 化的数据集上进行有监督微调（分类/分割）

关键设计¶

Masked Token Modeling (MTM)：

类比 BERT 的 Masked Language Modeling，MTM 从可见 token 预测被掩码的 token：

掩码策略：采用截断正态分布的可变掩码比率
编码器：仅处理可见 token 嵌入，减少训练时间和显存
解码器：将编码器输出用掩码 token 填充到原始长度，预测被掩码位置的原始 token
训练目标：交叉熵损失

\[\mathcal{L}_{recon} = \text{CE}(T'_M, T_M)\]

仅对被掩码的 token 计算损失。

TokenAdapt（解决几何增强问题）：

核心问题：token 化过程将 n×n 的 2D 图像块压缩为 1D 向量，空间信息坍塌使翻转等增强失效；token 嵌入间的相互依赖性使插值类增强（resize、crop）引入伪影。

解决方案：学习一个转换-增强-逆变换流水线

\[Z_T^{\mathbf{A}} = g(\mathbf{A}(f(Z_T))), \quad T^{\mathbf{A}} = \mathbf{q}_{\mathcal{Z}}(Z_T^{\mathbf{A}})\]

\(f\)：将 token 嵌入转入增强兼容空间
\(\mathbf{A}\)：标准像素级增强（翻转、裁剪、仿射等）
\(g\)：逆变换回 token 嵌入空间
\(\mathbf{q}_{\mathcal{Z}}\)：向量量化到码本索引

\(f\) 和 \(g\) 从 token 配对数据 \((T_x, T_{\mathbf{A}(x)})\) 学习，训练后可跨数据集、跨任务通用。

ColorAdapt（解决颜色增强问题）：

受 Adaptive Instance Normalization 启发，通过调整 token 嵌入的统计量改变颜色属性：

\[\mathcal{C}(Z_{T_1}, Z_{T_2}) = \sigma(Z_{T_2})\frac{Z_{T_1} - \mu(Z_{T_1})}{\sigma(Z_{T_1})} + \mu(Z_{T_2})\]

在保持目标结构的同时改变颜色表示。

损失函数 / 训练策略¶

MTM 预训练损失：仅掩码位置的交叉熵
TokenAdapt 训练损失：增强后 token 嵌入与真实增强图像 token 嵌入间的交叉熵
微调继承 SeiT 的训练配方，追加使用 CutMix 和 Emb-Noise

实验关键数据¶

主实验（表格）¶

存储高效 ImageNet-1k 分类（ViT-B/16）：

方法	输入	存储	Top-1 Acc
Full pixels	图像	140 GB	81.8
JPEG quality=5	图像	11 GB (8%)	74.6
降分辨率 ×0.2	图像	9.6 GB (7%)	75.2
SeiT	Token	1.4 GB (1%)	74.0
SeiT++	Token	1.4 GB (1%)	77.8

不同存储预算下的对比：

存储	SeiT	SeiT w/ MTM	SeiT++ w/o MTM	SeiT++ w/ MTM
1.4 GB	74.0	75.1	75.5	77.8 (+3.8)
0.8 GB	66.3	70.6	69.1	74.1 (+7.8)
0.3 GB	47.2	53.9	51.2	60.6 (+13.4)

消融实验（表格）¶

各增强策略的独立贡献（ViT-S, ImageNet-100）：

ColorAdapt	TokenAdapt	Top-1 Acc
✘	✘	77.3 (SeiT baseline)
✔	✘	78.3 (+1.0)
✘	✔	80.4 (+3.1)
✔	✔	81.4 (+4.1)

鲁棒性评估（ViT-B, 无 MTM）：

评估基准	SeiT	SeiT++	提升
Clean	74.0	75.5	+1.5
Gaussian Noise	50.7	58.6	+7.9
Gaussian Blur	62.6	66.8	+4.2
ImageNet-R	25.5	30.2	+4.7
Sketch	22.6	27.7	+5.1

关键发现¶

存储越少，提升越大：从 1.4GB 到 0.3GB，SeiT++ 相比 SeiT 的提升从 3.8% 扩大到 13.4%
MTM 和 token 增强协同增效：仅用 MTM 提升 1.1%，仅用增强提升 1.5%，组合提升 3.8%
TokenAdapt（几何增强）比 ColorAdapt（颜色增强）贡献更大（+3.1 vs +1.0）
ADE-20k 语义分割上也有 +4.2 mIoU 的显著提升
方法可迁移至不同 tokenizer（VQGAN）甚至不同输入格式（DCT 系数）

亮点与洞察¶

Token 域增强的系统分析：首次深入分析像素级增强在 token 域失效的两个根因——空间信息坍塌和 token 间依赖性
TokenAdapt 的巧妙设计：不直接在 token 空间做增强，而是学习一个可逆变换到"增强兼容空间"，复用成熟的像素级增强策略
自监督 + token 的首次结合：证明 MLM 类自监督方法可以从离线 token 直接学习，无需原始像素图像
极致的存储效率：仅用 1GB 数据即可训练出 70%+ 准确率的 ViT 模型

局限与展望¶

未在 ImageNet-21k 等大规模数据集上实验（受资源限制）
TokenAdapt 的转换/逆变换模块需要额外训练，增加了流水线复杂度
tokenizer（ViT-VQGAN）本身的重建质量限制了方法的上界
仅探索了 ViT 架构，对 CNN 架构的适用性未知
可探索更先进的 tokenizer（如 SDXL-VAE）进一步提升性能

评分¶

维度	分数 (1-5)
新颖性	4
技术深度	4
实验充分性	5
写作质量	4
实用价值	4
综合	4.2