跳转至

LoST: Level of Semantics Tokenization for 3D Shapes

日期: 2026-03-18
arXiv: 2603.17995
领域: 3D视觉/生成模型
代码: lost3d.github.io
关键词: 3D形状token化, 语义显著性, 前缀可解码, 自回归生成, Matryoshka表示

一句话总结

按语义显著性(而非几何细节)排序 3D token 序列,使早期前缀即可解码为完整可信形状,后续 token 逐步精细化——仅需 0.1%-10% 的 token 即超越现有自回归模型,通过新颖的 RIDA 损失在无 3D DINO 的条件下实现 3D 语义对齐。

研究背景与动机

  1. 领域现状: 3D 自回归生成近年突飞猛进,关键在于如何 token 化 3D 形状。现有方法分两类:(a) 平坦流式(PolyGen/MeshGPT 逐顶点/面片生成,序列极长且前缀无意义);(b) 几何 LoD 层级(OctGPT 八叉树、VertexRegen 渐进网格,按空间粗到细分解)。

  2. 现有痛点: 几何 LoD 有两个系统性问题——(1) coarse token 膨胀:即使粗简化后,早期阶段仍需大量空间 token 才能描绘基本骨架,推高 AR 模型的困惑度;(2) 前缀不可用:粗糙层级的解码输出几何和语义上都不可辨认,无法支持"任意前缀生成"的工作流。

  3. 2D 的启示: FlexTok 和 Semanticist 已在图像上实现了语义级 Matryoshka 表示——用 DINO 做语义对齐损失 (REPA) 让早期 token 捕捉语义、后续 token 精细化。但 3D 缺乏可靠的语义特征提取器(无 3D DINO),直接对齐 3D 与 2D DINO 因空间维度和布局差异而失败。

  4. 核心 idea: 用可学习寄存器 token + 因果掩码 + 嵌套丢弃将语义重要信息前置编码;关键创新在于 RIDA(Relational Inter-Distance Alignment)损失——不对齐绝对特征,而是对齐样本间的相对距离结构,绕过缺乏 3D DINO 的瓶颈。

方法详解

整体框架

三平面 VAE 编码(Direct3D,\(C \times H \times W \times 3\))→ ViT 编码器(768 个三平面 patch token + K=512 个可学习寄存器 token)→ 因果掩码 + 嵌套丢弃 → 有序语义 token 序列 \(\mathcal{T}_R\) → 条件 DiT 扩散解码器(从任意长前缀重建完整 token)→ 三平面解码 → 3D 形状。

关键设计

  1. LoST 编码器:寄存器 token + 因果掩码

    • 做什么:将无序的三平面特征汇聚为有序的语义 token 序列
    • 核心思路:引入 K=512 个 可学习寄存器 token \(\mathcal{T}_R\),与三平面 token 一起输入 ViT 注意力层。注意力掩码设计为:寄存器 token 可以注意到原始 token,但反向禁止——这使寄存器成为原始信息的"摘要"
    • 嵌套丢弃是关键:训练时随机只保留 \(\{1, 2, 4, 8, ..., 512\}\) 长度的前缀(2 的幂次),强制模型将最重要信息塞入最早的 token。加上因果掩码(寄存器之间也有因果约束),形成自然的粗到细层级
    • 设计动机:层级类型取决于训练损失——几何损失给几何层级(低频到高频),语义损失给语义层级。配合 RIDA 实现语义优先
  2. LoST 解码器:条件 DiT 扩散

    • 做什么:从可变长前缀重建完整 3D token 序列
    • 核心思路:不做确定性重建(短前缀信息不足会产生模糊输出),而是将重建重新定义为生成问题。DiT 扩散模型以噪声 token 为输入、通过交叉注意力条件化于前缀 \(\mathcal{T}_R\),预测去噪后的完整序列
    • 短前缀 → 多种可信形状(保留语义);长前缀 → 精确重建(保留几何),随前缀增长,生成方差自然递减
  3. RIDA:3D 语义对齐损失

    • 做什么:在无 3D DINO 的条件下为 3D token 学习提供语义监督
    • 核心问题:直接用 REPA 对齐 3D 内部表示和 2D DINO 特征失败——维度和空间布局差异太大。渲染后对齐又计算开销过高
    • 关键洞察:只需对齐相对距离结构,而非绝对特征值。预训练一个 transformer "学生"模型 \(f_\theta\),输入三平面,输出空间 token + 全局嵌入。训练时不要求学生特征等于 DINO 特征,而是要求学生空间中样本对之间的相对距离匹配 DINO 空间中的相对距离
    • 三个损失组件:
    • \(\mathcal{L}_{global}\)(全局关系对比): 多正例 InfoNCE,按 DINO 距离挖掘正负对,拉近语义相似 3D 形状
    • \(\mathcal{L}_{rank}\)(排序蒸馏): 受 RKD 启发,保留连续的成对距离排序关系(不只是正/负二分)
    • \(\mathcal{L}_{spatial}\)(空间结构蒸馏): 蒸馏实例内 token 之间的亲和矩阵,保留部件级关系
  4. 总损失:\(\mathcal{L}_{RIDA} = \lambda_g \mathcal{L}_{global} + \lambda_r \mathcal{L}_{rank} + \lambda_s \mathcal{L}_{spatial}\)\(\lambda_g=1.0, \lambda_r=1.0, \lambda_s=0.5\)
  5. 预训练完成后,\(f_\theta\) 作为感知损失指导 DiT 解码器训练:\(\mathcal{L}_{semantic} = 1 - \langle f_\theta(\hat{X}_0), f_\theta(X_0) \rangle\)

  6. LoST-GPT:连续空间自回归生成

    • 不量化 token,保持在连续空间
    • 用 LlamaGen 架构 GPT + 扩散 loss(而非 categorical CE),每个位置用小 MLP 扩散头预测下一 token 的分布
    • 条件生成通过 OpenCLIP 嵌入前缀

训练数据

  • 用 Gemini 2.5 Pro 生成多样化 prompt → Flux.1 图像合成 → Direct3D 提升为 3D → 300K 形状
  • 未使用 Objaverse(避免复杂预处理),完全自生成

实验关键数据

重建评估(Tokenizer)

方法 Token 数 CD (×10⁻²) ↓ FID ↓ DINO ↑
OctGPT ~219 16.92 341.17 0.382
OctGPT ~239,004 0.470 88.48 0.695
VertexRegen ~2,730 4.290 186.61 0.463
VertexRegen ~7,530 0.034 86.10 0.791
LoST 1 2.271 31.65 0.731
LoST 4 1.328 29.26 0.765
LoST 64 0.723 26.57 0.814
LoST 512 0.234 13.59 0.921
  • LoST@1 即可解码完整可识别形状——FID=31.65, DINO=0.731,已远超 OctGPT@219
  • LoST@64 超越 OctGPT@239,004 在 FID 和 DINO 上(等效 1:3700 压缩比)

AR 生成评估

方法 Token 数 FID ↓ DINO ↑
OctGPT ~50,000 66.93
Llama-Mesh ~3,758 118.58
ShapeLLM-Omni 1,024 48.70 0.680
LoST-GPT 128 34.25 0.758
  • LoST-GPT 在仅 128 token 下超越所有基线,包括使用 50K token 的 OctGPT 和有两阶段精化的 ShapeLLM-Omni

亮点与洞察

  • RIDA 的相对距离对齐破解了 3D 语义困境:不需要等维度的特征空间匹配,只对齐关系拓扑——这个思路可推广到其他缺乏基础模型的领域(如分子、蛋白质)
  • Matryoshka → 3D 的首次成功适配:前缀即有意义的表示对 3D 多模态应用(LLM + 3D 理解/生成)意义重大——可以用极少 token 就让 LLM "看到" 3D 形状
  • 从积分步数到语义压缩的效率跨越:128 token 打败 50K token,证明形状的本质信息量远小于几何细节量
  • 训练数据自生成策略值得借鉴:避开 Objaverse 预处理,用 LLM prompt + 图像生成 + 3D lift 直接生成 300K 训练集

局限性 / 可改进方向

  • 基于 Direct3D VAE 三平面表示,分辨率和特征维度受限;扩展到 Gaussian Splat 等其他 3D 表示是自然方向
  • RIDA 需独立预训练语义提取器,增加训练管道二阶段复杂度
  • 扩散解码器增加了推理延迟(相比纯 AR 解码)
  • 极短前缀(1-4 token)仍可能产生伪影(复杂形状),这也是 2D 语义优先 tokenizer 的共有问题
  • 当前 AR 生成器使用固定目标长度(128),缺少 EOS token 和复杂度自适应停止机制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ RIDA 完全新颖,3D 语义层级 tokenization 首创
  • 实验充分度: ⭐⭐⭐⭐ 重建 + AR 生成 + 语义检索多角度评估,测试集独立(Step1X-3D 生成)
  • 价值: ⭐⭐⭐⭐⭐ 极致压缩对 3D 多模态 LLM 集成有重大意义

核心贡献:语义优先的 3D token 序列(LoST)+ RIDA 相对距离对齐损失,0.1%-10% 的 token 即超越几何 LoD 基线