LoST: Level of Semantics Tokenization for 3D Shapes¶
日期: 2026-03-18
arXiv: 2603.17995
领域: 3D视觉/生成模型
代码: lost3d.github.io
关键词: 3D形状token化, 语义显著性, 前缀可解码, 自回归生成, Matryoshka表示
一句话总结¶
按语义显著性(而非几何细节)排序 3D token 序列,使早期前缀即可解码为完整可信形状,后续 token 逐步精细化——仅需 0.1%-10% 的 token 即超越现有自回归模型,通过新颖的 RIDA 损失在无 3D DINO 的条件下实现 3D 语义对齐。
研究背景与动机¶
-
领域现状: 3D 自回归生成近年突飞猛进,关键在于如何 token 化 3D 形状。现有方法分两类:(a) 平坦流式(PolyGen/MeshGPT 逐顶点/面片生成,序列极长且前缀无意义);(b) 几何 LoD 层级(OctGPT 八叉树、VertexRegen 渐进网格,按空间粗到细分解)。
-
现有痛点: 几何 LoD 有两个系统性问题——(1) coarse token 膨胀:即使粗简化后,早期阶段仍需大量空间 token 才能描绘基本骨架,推高 AR 模型的困惑度;(2) 前缀不可用:粗糙层级的解码输出几何和语义上都不可辨认,无法支持"任意前缀生成"的工作流。
-
2D 的启示: FlexTok 和 Semanticist 已在图像上实现了语义级 Matryoshka 表示——用 DINO 做语义对齐损失 (REPA) 让早期 token 捕捉语义、后续 token 精细化。但 3D 缺乏可靠的语义特征提取器(无 3D DINO),直接对齐 3D 与 2D DINO 因空间维度和布局差异而失败。
-
核心 idea: 用可学习寄存器 token + 因果掩码 + 嵌套丢弃将语义重要信息前置编码;关键创新在于 RIDA(Relational Inter-Distance Alignment)损失——不对齐绝对特征,而是对齐样本间的相对距离结构,绕过缺乏 3D DINO 的瓶颈。
方法详解¶
整体框架¶
三平面 VAE 编码(Direct3D,\(C \times H \times W \times 3\))→ ViT 编码器(768 个三平面 patch token + K=512 个可学习寄存器 token)→ 因果掩码 + 嵌套丢弃 → 有序语义 token 序列 \(\mathcal{T}_R\) → 条件 DiT 扩散解码器(从任意长前缀重建完整 token)→ 三平面解码 → 3D 形状。
关键设计¶
-
LoST 编码器:寄存器 token + 因果掩码
- 做什么:将无序的三平面特征汇聚为有序的语义 token 序列
- 核心思路:引入 K=512 个 可学习寄存器 token \(\mathcal{T}_R\),与三平面 token 一起输入 ViT 注意力层。注意力掩码设计为:寄存器 token 可以注意到原始 token,但反向禁止——这使寄存器成为原始信息的"摘要"
- 嵌套丢弃是关键:训练时随机只保留 \(\{1, 2, 4, 8, ..., 512\}\) 长度的前缀(2 的幂次),强制模型将最重要信息塞入最早的 token。加上因果掩码(寄存器之间也有因果约束),形成自然的粗到细层级
- 设计动机:层级类型取决于训练损失——几何损失给几何层级(低频到高频),语义损失给语义层级。配合 RIDA 实现语义优先
-
LoST 解码器:条件 DiT 扩散
- 做什么:从可变长前缀重建完整 3D token 序列
- 核心思路:不做确定性重建(短前缀信息不足会产生模糊输出),而是将重建重新定义为生成问题。DiT 扩散模型以噪声 token 为输入、通过交叉注意力条件化于前缀 \(\mathcal{T}_R\),预测去噪后的完整序列
- 短前缀 → 多种可信形状(保留语义);长前缀 → 精确重建(保留几何),随前缀增长,生成方差自然递减
-
RIDA:3D 语义对齐损失
- 做什么:在无 3D DINO 的条件下为 3D token 学习提供语义监督
- 核心问题:直接用 REPA 对齐 3D 内部表示和 2D DINO 特征失败——维度和空间布局差异太大。渲染后对齐又计算开销过高
- 关键洞察:只需对齐相对距离结构,而非绝对特征值。预训练一个 transformer "学生"模型 \(f_\theta\),输入三平面,输出空间 token + 全局嵌入。训练时不要求学生特征等于 DINO 特征,而是要求学生空间中样本对之间的相对距离匹配 DINO 空间中的相对距离
- 三个损失组件:
- \(\mathcal{L}_{global}\)(全局关系对比): 多正例 InfoNCE,按 DINO 距离挖掘正负对,拉近语义相似 3D 形状
- \(\mathcal{L}_{rank}\)(排序蒸馏): 受 RKD 启发,保留连续的成对距离排序关系(不只是正/负二分)
- \(\mathcal{L}_{spatial}\)(空间结构蒸馏): 蒸馏实例内 token 之间的亲和矩阵,保留部件级关系
- 总损失:\(\mathcal{L}_{RIDA} = \lambda_g \mathcal{L}_{global} + \lambda_r \mathcal{L}_{rank} + \lambda_s \mathcal{L}_{spatial}\)(\(\lambda_g=1.0, \lambda_r=1.0, \lambda_s=0.5\))
-
预训练完成后,\(f_\theta\) 作为感知损失指导 DiT 解码器训练:\(\mathcal{L}_{semantic} = 1 - \langle f_\theta(\hat{X}_0), f_\theta(X_0) \rangle\)
-
LoST-GPT:连续空间自回归生成
- 不量化 token,保持在连续空间
- 用 LlamaGen 架构 GPT + 扩散 loss(而非 categorical CE),每个位置用小 MLP 扩散头预测下一 token 的分布
- 条件生成通过 OpenCLIP 嵌入前缀
训练数据¶
- 用 Gemini 2.5 Pro 生成多样化 prompt → Flux.1 图像合成 → Direct3D 提升为 3D → 300K 形状
- 未使用 Objaverse(避免复杂预处理),完全自生成
实验关键数据¶
重建评估(Tokenizer)¶
| 方法 | Token 数 | CD (×10⁻²) ↓ | FID ↓ | DINO ↑ |
|---|---|---|---|---|
| OctGPT | ~219 | 16.92 | 341.17 | 0.382 |
| OctGPT | ~239,004 | 0.470 | 88.48 | 0.695 |
| VertexRegen | ~2,730 | 4.290 | 186.61 | 0.463 |
| VertexRegen | ~7,530 | 0.034 | 86.10 | 0.791 |
| LoST | 1 | 2.271 | 31.65 | 0.731 |
| LoST | 4 | 1.328 | 29.26 | 0.765 |
| LoST | 64 | 0.723 | 26.57 | 0.814 |
| LoST | 512 | 0.234 | 13.59 | 0.921 |
- LoST@1 即可解码完整可识别形状——FID=31.65, DINO=0.731,已远超 OctGPT@219
- LoST@64 超越 OctGPT@239,004 在 FID 和 DINO 上(等效 1:3700 压缩比)
AR 生成评估¶
| 方法 | Token 数 | FID ↓ | DINO ↑ |
|---|---|---|---|
| OctGPT | ~50,000 | 66.93 | ✗ |
| Llama-Mesh | ~3,758 | 118.58 | ✗ |
| ShapeLLM-Omni | 1,024 | 48.70 | 0.680 |
| LoST-GPT | 128 | 34.25 | 0.758 |
- LoST-GPT 在仅 128 token 下超越所有基线,包括使用 50K token 的 OctGPT 和有两阶段精化的 ShapeLLM-Omni
亮点与洞察¶
- RIDA 的相对距离对齐破解了 3D 语义困境:不需要等维度的特征空间匹配,只对齐关系拓扑——这个思路可推广到其他缺乏基础模型的领域(如分子、蛋白质)
- Matryoshka → 3D 的首次成功适配:前缀即有意义的表示对 3D 多模态应用(LLM + 3D 理解/生成)意义重大——可以用极少 token 就让 LLM "看到" 3D 形状
- 从积分步数到语义压缩的效率跨越:128 token 打败 50K token,证明形状的本质信息量远小于几何细节量
- 训练数据自生成策略值得借鉴:避开 Objaverse 预处理,用 LLM prompt + 图像生成 + 3D lift 直接生成 300K 训练集
局限性 / 可改进方向¶
- 基于 Direct3D VAE 三平面表示,分辨率和特征维度受限;扩展到 Gaussian Splat 等其他 3D 表示是自然方向
- RIDA 需独立预训练语义提取器,增加训练管道二阶段复杂度
- 扩散解码器增加了推理延迟(相比纯 AR 解码)
- 极短前缀(1-4 token)仍可能产生伪影(复杂形状),这也是 2D 语义优先 tokenizer 的共有问题
- 当前 AR 生成器使用固定目标长度(128),缺少 EOS token 和复杂度自适应停止机制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ RIDA 完全新颖,3D 语义层级 tokenization 首创
- 实验充分度: ⭐⭐⭐⭐ 重建 + AR 生成 + 语义检索多角度评估,测试集独立(Step1X-3D 生成)
- 价值: ⭐⭐⭐⭐⭐ 极致压缩对 3D 多模态 LLM 集成有重大意义
核心贡献:语义优先的 3D token 序列(LoST)+ RIDA 相对距离对齐损失,0.1%-10% 的 token 即超越几何 LoD 基线