LoST: Level of Semantics Tokenization for 3D Shapes¶

日期: 2026-03-18
arXiv: 2603.17995
领域: 3D视觉/生成模型
代码: lost3d.github.io
关键词: 3D形状token化, 语义显著性, 前缀可解码, 自回归生成, Matryoshka表示

一句话总结¶

按语义显著性（而非几何细节）排序 3D token 序列，使早期前缀即可解码为完整可信形状，后续 token 逐步精细化——仅需 0.1%-10% 的 token 即超越现有自回归模型，通过新颖的 RIDA 损失在无 3D DINO 的条件下实现 3D 语义对齐。

研究背景与动机¶

领域现状: 3D 自回归生成近年突飞猛进，关键在于如何 token 化 3D 形状。现有方法分两类：(a) 平坦流式（PolyGen/MeshGPT 逐顶点/面片生成，序列极长且前缀无意义）；(b) 几何 LoD 层级（OctGPT 八叉树、VertexRegen 渐进网格，按空间粗到细分解）。
现有痛点: 几何 LoD 有两个系统性问题——(1) coarse token 膨胀：即使粗简化后，早期阶段仍需大量空间 token 才能描绘基本骨架，推高 AR 模型的困惑度；(2) 前缀不可用：粗糙层级的解码输出几何和语义上都不可辨认，无法支持"任意前缀生成"的工作流。
2D 的启示: FlexTok 和 Semanticist 已在图像上实现了语义级 Matryoshka 表示——用 DINO 做语义对齐损失 (REPA) 让早期 token 捕捉语义、后续 token 精细化。但 3D 缺乏可靠的语义特征提取器（无 3D DINO），直接对齐 3D 与 2D DINO 因空间维度和布局差异而失败。
核心 idea: 用可学习寄存器 token + 因果掩码 + 嵌套丢弃将语义重要信息前置编码；关键创新在于 RIDA（Relational Inter-Distance Alignment）损失——不对齐绝对特征，而是对齐样本间的相对距离结构，绕过缺乏 3D DINO 的瓶颈。

方法详解¶

整体框架¶

三平面 VAE 编码（Direct3D，\(C \times H \times W \times 3\)）→ ViT 编码器（768 个三平面 patch token + K=512 个可学习寄存器 token）→ 因果掩码 + 嵌套丢弃 → 有序语义 token 序列 \(\mathcal{T}_R\) → 条件 DiT 扩散解码器（从任意长前缀重建完整 token）→ 三平面解码 → 3D 形状。

关键设计¶

LoST 编码器：寄存器 token + 因果掩码
- 做什么：将无序的三平面特征汇聚为有序的语义 token 序列
- 核心思路：引入 K=512 个 可学习寄存器 token \(\mathcal{T}_R\)，与三平面 token 一起输入 ViT 注意力层。注意力掩码设计为：寄存器 token 可以注意到原始 token，但反向禁止——这使寄存器成为原始信息的"摘要"
- 嵌套丢弃是关键：训练时随机只保留 \(\{1, 2, 4, 8, ..., 512\}\) 长度的前缀（2 的幂次），强制模型将最重要信息塞入最早的 token。加上因果掩码（寄存器之间也有因果约束），形成自然的粗到细层级
- 设计动机：层级类型取决于训练损失——几何损失给几何层级（低频到高频），语义损失给语义层级。配合 RIDA 实现语义优先
LoST 解码器：条件 DiT 扩散
- 做什么：从可变长前缀重建完整 3D token 序列
- 核心思路：不做确定性重建（短前缀信息不足会产生模糊输出），而是将重建重新定义为生成问题。DiT 扩散模型以噪声 token 为输入、通过交叉注意力条件化于前缀 \(\mathcal{T}_R\)，预测去噪后的完整序列
- 短前缀 → 多种可信形状（保留语义）；长前缀 → 精确重建（保留几何），随前缀增长，生成方差自然递减
RIDA：3D 语义对齐损失
- 做什么：在无 3D DINO 的条件下为 3D token 学习提供语义监督
- 核心问题：直接用 REPA 对齐 3D 内部表示和 2D DINO 特征失败——维度和空间布局差异太大。渲染后对齐又计算开销过高
- 关键洞察：只需对齐相对距离结构，而非绝对特征值。预训练一个 transformer "学生"模型 \(f_\theta\)，输入三平面，输出空间 token + 全局嵌入。训练时不要求学生特征等于 DINO 特征，而是要求学生空间中样本对之间的相对距离匹配 DINO 空间中的相对距离
- 三个损失组件：
- \(\mathcal{L}_{global}\)（全局关系对比）: 多正例 InfoNCE，按 DINO 距离挖掘正负对，拉近语义相似 3D 形状
- \(\mathcal{L}_{rank}\)（排序蒸馏）: 受 RKD 启发，保留连续的成对距离排序关系（不只是正/负二分）
- \(\mathcal{L}_{spatial}\)（空间结构蒸馏）: 蒸馏实例内 token 之间的亲和矩阵，保留部件级关系
总损失：\(\mathcal{L}_{RIDA} = \lambda_g \mathcal{L}_{global} + \lambda_r \mathcal{L}_{rank} + \lambda_s \mathcal{L}_{spatial}\)（\(\lambda_g=1.0, \lambda_r=1.0, \lambda_s=0.5\)）
预训练完成后，\(f_\theta\) 作为感知损失指导 DiT 解码器训练：\(\mathcal{L}_{semantic} = 1 - \langle f_\theta(\hat{X}_0), f_\theta(X_0) \rangle\)
LoST-GPT：连续空间自回归生成
- 不量化 token，保持在连续空间
- 用 LlamaGen 架构 GPT + 扩散 loss（而非 categorical CE），每个位置用小 MLP 扩散头预测下一 token 的分布
- 条件生成通过 OpenCLIP 嵌入前缀

训练数据¶

用 Gemini 2.5 Pro 生成多样化 prompt → Flux.1 图像合成 → Direct3D 提升为 3D → 300K 形状
未使用 Objaverse（避免复杂预处理），完全自生成

实验关键数据¶

重建评估（Tokenizer）¶

方法	Token 数	CD (×10⁻²) ↓	FID ↓	DINO ↑
OctGPT	~219	16.92	341.17	0.382
OctGPT	~239,004	0.470	88.48	0.695
VertexRegen	~2,730	4.290	186.61	0.463
VertexRegen	~7,530	0.034	86.10	0.791
LoST	1	2.271	31.65	0.731
LoST	4	1.328	29.26	0.765
LoST	64	0.723	26.57	0.814
LoST	512	0.234	13.59	0.921

LoST@1 即可解码完整可识别形状——FID=31.65, DINO=0.731，已远超 OctGPT@219
LoST@64 超越 OctGPT@239,004 在 FID 和 DINO 上（等效 1:3700 压缩比）

AR 生成评估¶

方法	Token 数	FID ↓	DINO ↑
OctGPT	~50,000	66.93	✗
Llama-Mesh	~3,758	118.58	✗
ShapeLLM-Omni	1,024	48.70	0.680
LoST-GPT	128	34.25	0.758

LoST-GPT 在仅 128 token 下超越所有基线，包括使用 50K token 的 OctGPT 和有两阶段精化的 ShapeLLM-Omni

亮点与洞察¶

RIDA 的相对距离对齐破解了 3D 语义困境：不需要等维度的特征空间匹配，只对齐关系拓扑——这个思路可推广到其他缺乏基础模型的领域（如分子、蛋白质）
Matryoshka → 3D 的首次成功适配：前缀即有意义的表示对 3D 多模态应用（LLM + 3D 理解/生成）意义重大——可以用极少 token 就让 LLM "看到" 3D 形状
从积分步数到语义压缩的效率跨越：128 token 打败 50K token，证明形状的本质信息量远小于几何细节量
训练数据自生成策略值得借鉴：避开 Objaverse 预处理，用 LLM prompt + 图像生成 + 3D lift 直接生成 300K 训练集

局限性 / 可改进方向¶

基于 Direct3D VAE 三平面表示，分辨率和特征维度受限；扩展到 Gaussian Splat 等其他 3D 表示是自然方向
RIDA 需独立预训练语义提取器，增加训练管道二阶段复杂度
扩散解码器增加了推理延迟（相比纯 AR 解码）
极短前缀（1-4 token）仍可能产生伪影（复杂形状），这也是 2D 语义优先 tokenizer 的共有问题
当前 AR 生成器使用固定目标长度（128），缺少 EOS token 和复杂度自适应停止机制

评分¶

新颖性: ⭐⭐⭐⭐⭐ RIDA 完全新颖，3D 语义层级 tokenization 首创
实验充分度: ⭐⭐⭐⭐ 重建 + AR 生成 + 语义检索多角度评估，测试集独立（Step1X-3D 生成）
价值: ⭐⭐⭐⭐⭐ 极致压缩对 3D 多模态 LLM 集成有重大意义

核心贡献：语义优先的 3D token 序列（LoST）+ RIDA 相对距离对齐损失，0.1%-10% 的 token 即超越几何 LoD 基线