Differentiable Hierarchical Visual Tokenization¶
会议: NeurIPS 2025 (Spotlight)
arXiv: 2511.02652
代码: 有
领域: 计算机视觉 / Vision Transformer
关键词: Visual Tokenizer, 层次化分词, 可微分, 超像素, 信息准则
一句话总结¶
提出一种端到端可微分的层次化视觉分词器,以像素级粒度自适应图像内容进行 token 划分,利用信息准则进行层次模型选择,可直接替换 ViT 的固定 patch 分词,并支持光栅-矢量转换。
研究背景与动机¶
Vision Transformer (ViT) 及其变体已成为计算机视觉的主流架构,但其分词策略存在根本性的局限:
固定 patch 分词的问题:
忽视空间结构:无论图像内容如何,都将其划分为固定大小(如 16×16)的网格 patch,完全无视目标边界和语义结构
语义不对齐:一个 patch 可能同时包含前景和背景,导致 token 的语义不纯
效率浪费:纹理简单的区域(如天空)和复杂区域(如建筑细节)使用相同数量的 token,造成计算资源浪费
信息损失:固定网格的边界可能切割重要的视觉特征
已有自适应分词方案的局限:
- 大多不可微分,无法端到端训练
- 依赖预训练的分割模型,增加额外计算
- 难以与现有预训练 ViT 兼容
DHVT 的核心思想:设计一个完全可微分的视觉分词器,能够根据图像内容自适应地决定 token 的数量和位置,同时保持与现有架构的向后兼容性。
方法详解¶
整体框架¶
DHVT(Differentiable Hierarchical Visual Tokenization)包含三个核心组件:
- 像素级特征提取:提取每个像素的嵌入特征
- 层次化分割/分组:使用信息准则自上而下或自下而上地将像素分组为语义一致的 token
- Token 聚合:将每组像素的特征聚合为单个 token 表示
关键设计¶
1. 可微分的超像素生成
DHVT 使用可微分的超像素(superpixel)方法将图像划分为语义一致的区域:
- 每个像素 \(p_i\) 有一个特征向量 \(\mathbf{f}_i\) 和空间位置 \((x_i, y_i)\)
- 通过可微分的软分配(soft assignment),每个像素以概率分配到若干 token 组
- 分配概率基于特征相似度和空间邻近性
2. 基于信息准则的层次模型选择
DHVT 使用贝叶斯信息准则(BIC)来自动确定每个图像区域的最优 token 数量:
其中 \(L\) 是给定 \(k\) 个 token 时的似然,\(n\) 是像素数。BIC 平衡了模型拟合度和复杂度: - 纹理简单的区域:少量 token 即可充分表示(低 BIC) - 纹理复杂的区域:需要更多 token(低 BIC 需更大 \(k\))
层次化过程: 1. 初始从粗粒度(少量 token)开始 2. 递归地对每个 token 区域判断是否需要进一步细分 3. 当子分割不能显著降低 BIC 时停止 4. 最终得到自适应数量和大小的 token
3. 向后兼容设计
为了能直接 retrofit 预训练 ViT: - 生成的 token 数量可变,但通过填充/截断与预训练模型的 token 数对齐 - token 特征通过可学习的投影层映射到与 patch embedding 相同的维度 - 位置编码根据 token 的空间位置动态生成,而非固定网格
4. 光栅到矢量转换
作为附加能力,DHVT 的层次化分割结果可以直接用于 raster-to-vector(光栅到矢量图)转换:每个 token 对应一个矢量图元素(多边形区域 + 均匀颜色/特征),无需额外训练。
损失函数 / 训练策略¶
DHVT 的分词器与下游任务联合端到端训练:
- \(\mathcal{L}_{\text{task}}\):下游任务损失(如分类的交叉熵、分割的 dice loss)
- \(\mathcal{L}_{\text{reg}}\):正则化项,鼓励 token 边界与语义边界对齐,惩罚过多/过少的 token
可微分性保证梯度可以从下游损失传播回分词器参数,实现真正的端到端学习。
实验关键数据¶
主实验¶
Table 1:ImageNet-1K 分类准确率
| 方法 | Backbone | Top-1 Acc (%) ↑ | #Tokens (avg) |
|---|---|---|---|
| ViT-B/16 (fixed patch) | ViT-B | 81.8 | 196 (固定) |
| DynamicViT | ViT-B | 81.3 | ~130 |
| ToMe | ViT-B | 81.5 | ~150 |
| DHVT (Ours) | ViT-B | 82.3 | ~160 (自适应) |
| ViT-L/16 (fixed patch) | ViT-L | 85.2 | 196 (固定) |
| DHVT (Ours) | ViT-L | 85.7 | ~170 (自适应) |
DHVT 在使用更少平均 token 数的情况下,分类精度优于固定 patch 和 token pruning/merging 方法。
Table 2:ADE20K 语义分割(mIoU)
| 方法 | Backbone | mIoU (%) ↑ | #Tokens (avg) |
|---|---|---|---|
| ViT-B/16 + UperNet | ViT-B | 47.4 | 196 |
| SegFormer-B2 | MiT-B2 | 46.5 | 多尺度 |
| DHVT + UperNet | ViT-B | 48.8 | ~180 (自适应) |
在密集预测任务(语义分割)中,DHVT 的语义对齐 token 带来更显著的提升(+1.4 mIoU),因为 token 边界与语义边界的对齐直接有利于像素级预测。
消融实验¶
层次化深度的影响
| 最大层次深度 | Top-1 Acc (%) | 平均 #Tokens |
|---|---|---|
| 1 (无层次) | 81.6 | 196 |
| 2 | 82.0 | ~175 |
| 3 | 82.3 | ~160 |
| 4 | 82.2 | ~145 |
3 层层次深度达到最佳精度-效率平衡。过深的层次可能导致某些 token 过小而丢失信息。
信息准则选择
| 准则 | Top-1 Acc (%) |
|---|---|
| 固定数量 | 81.9 |
| AIC | 82.0 |
| BIC | 82.3 |
| MDL | 82.1 |
BIC 的惩罚项最好地平衡了 token 数量和表示质量。
关键发现¶
- 语义对齐至关重要:DHVT 的 token 边界与目标边界天然对齐,在分割等密集任务上优势更明显
- 自适应 token 分配:简单区域用少量 token,复杂区域用更多 token,计算资源分配更合理
- Retrofit 可行性:可以直接在预训练 ViT 上微调分词器,无需从头训练
- 矢量图转换:层次化分割的副产品可直接用于 SVG 生成,展现了方法的通用性
- 信息准则的有效性:BIC 提供了无需调参的 token 数量自动选择机制
亮点与洞察¶
- 从固定到自适应的范式转换:ViT 的 patch 分词是一个被广泛接受但从未被质疑的设计选择,DHVT 展示了更好的替代方案
- 可微分 + 信息准则:将统计模型选择理论(BIC)融入端到端深度学习,是一个巧妙的结合
- 向后兼容:不需要重新设计架构或从头预训练,可以直接增强现有模型
- 一石多鸟:分类精度提升 + token 效率改善 + 免费矢量图转换
- NeurIPS Spotlight 体现了该方向的重要性和方法的完成度
局限与展望¶
- 分词器额外计算:可微分超像素生成本身有计算开销,需要在 token 减少带来的加速和分词开销间平衡
- 可变 token 数处理:batch 内 token 数不同需要特殊处理(填充或分桶),影响训练效率
- 与大规模预训练集成:是否能在 CLIP/DINOv2 级别的预训练中使用 DHVT 尚待验证
- 视频扩展:将层次化分词扩展到时序维度是自然的扩展方向
- 超像素质量:初始超像素的质量直接影响后续层次化构建
相关工作与启发¶
- ViT (Dosovitskiy et al. 2021):固定 patch 分词的标准范式
- DynamicViT:动态 token 剪枝,但在分词后操作
- ToMe (Token Merging):训练后合并冗余 token,正交方法
- Superpixel 方法 (SLIC, etc.):经典的超像素分割方法
- SegFormer:用层次化特征的密集预测 Transformer
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 5 — 可微分层次化视觉分词是全新方向 |
| 技术质量 | 4 — 理论动机清晰,信息准则应用巧妙 |
| 实验充分性 | 4 — 分类 + 分割 + 矢量化验证 |
| 写作质量 | 4 — Spotlight 水平的清晰表达 |
| 影响力 | 5 — 可能重塑 ViT 分词范式 |
相关论文¶
- [ACL 2025] Adversarial Tokenization
- [ICML 2025] Does Data Scaling Lead to Visual Compositional Generalization?
- [CVPR 2025] Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction
- [ACL 2025] Tokenization is Sensitive to Language Variation
- [ICLR 2026] SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook