AssetFormer: Modular 3D Assets Generation with Autoregressive Transformer¶

会议: ICLR 2026
arXiv: 2602.12100
代码: GitHub
领域: 3D 视觉 / 图像生成
关键词: 模块化3D资产, 自回归Transformer, 用户生成内容, token排序, 推测解码

一句话总结¶

本文提出 AssetFormer，一个基于自回归 Transformer 的模块化 3D 资产生成框架，通过设计图遍历 token 排序、token 集建模和 SlowFast 解码策略，从文本描述生成由离散基元组合的高质量建筑资产，并构建了首个大规模真实模块化 3D 数据集（16k 真实 + 4k 合成样本）。

研究背景与动机¶

领域现状: 3D 生成方法使用体素、点云、神经场、mesh 等表征，在游戏行业的专业生产和 UGC 场景中面临质量不足、文件过大、非专业用户难以使用等问题。
现有痛点: 传统 3D 生成方法输出密集 mesh，难以直接集成到游戏引擎；模块化 3D 资产缺乏公开训练数据；已有 mesh 生成方法（MeshGPT）需要复杂图编码器。
核心矛盾: 游戏行业广泛使用模块化设计（CSG 原理），但自动化模块化资产生成几乎未被研究。
本文目标: 构建能从文本描述自动生成模块化 3D 资产的框架。
切入角度: 模块化资产天然是离散元素序列（每个基元有类别、旋转、位置属性），非常适合自回归建模。
核心 idea: 将 3D 模块化资产视为有序 token 序列，用图遍历确定最优排序，Decoder-only Transformer 进行 next-token prediction。

方法详解¶

整体框架¶

输入为文本描述，通过 FLAN-T5 编码后投影为 token。模型基于 Llama 架构（312M 参数），联合词表包含 25 种基元类别 + 4 种旋转 + 3 维位置 = 214 tokens。输出为 token 序列，解码为 3D 基元参数后在游戏引擎中渲染。

关键设计¶

Token 集建模（Token Set Modeling）:
- 功能: 处理混合词表的 next-token prediction
- 核心思路: 将基元的 5 个属性 \((c, r, x_0, x_1, x_2)\) 的各自有限离散值合并为联合词表 \(\mathcal{V}\)。推理时按属性周期过滤无效 logits 并重归一化
- 设计动机: 直接用联合词表避免了多阶段解码，保持模型简洁
Token 重排序（Token Re-Ordering）:
- 功能: 为 3D 基元确定最优排列顺序
- 核心思路: 从资产底角出发，使用 DFS/BFS 图遍历所有基元，生成排列 \(\mathcal{A} = \{\tau_0, ..., \tau_{n-1}\}\)。DFS 略优于 BFS 和随机排序
- 设计动机: 3D 资产不像文本有天然顺序，DFS 保证局部连通性同时维持全局从底到顶
SlowFast 解码:
- 功能: 加速推理而不损失质量
- 核心思路: 使用小模型（AssetFormer-S, 87M）快速预测简单 token，大模型（AssetFormer-B, 312M）处理复杂 token。适配投机解码算法并加入 token 类型过滤
- 设计动机: 模块化资产中许多位置遵循常见模式，可由小模型高效预测

损失函数 / 训练策略¶

标准交叉熵损失，next-token prediction
CFG (Classifier-Free Guidance) scale=2.0，训练时 10% 随机丢弃条件
Top-k 采样 (k=10)，temperature=0.7
数据集：16k 真实样本（在线 UGC 平台）+ 4k PCG 合成样本

实验关键数据¶

主实验¶

方法	FID ↓	CLIP ↑
PCG (算法生成)	108.476	0.319
AssetFormer + Greedy	63.351	0.319
AssetFormer + Beam	63.333	0.321
AssetFormer + Top-K	55.186	0.320
真实数据	/	0.322

消融实验¶

配置	FID ↓	说明
Raw Order	65.215	无排序导致孤立部件
RAR (随机排列)	83.561	图像领域的随机化策略在 3D 中不适用
BFS	61.620	有效但略逊于 DFS
DFS	55.186	最优排序
仅合成数据	113.560	多样性不足
仅真实数据	63.381	缺少结构化基础
混合数据	55.186	两类数据互补

关键发现¶

Top-k 采样在质量和多样性间取得最佳平衡
DFS 排序优于 BFS 和随机排序，保证局部连通性
合成数据和真实数据互补：合成提供结构化基础，真实提供多样性
SlowFast 解码加速 47% (80.62→119.02 token/s) 且几乎无质量损失

亮点与洞察¶

首次将自回归 Transformer 应用于模块化 3D 资产生成
模块化表征的关键优势：无损离散化、文件小、易集成游戏引擎、纹理映射简单
与 MeshGPT 等密集 mesh 方法形成互补：模块化适合建筑类规则资产
数据收集策略值得借鉴：真实 UGC 平台数据 + PCG 合成 + GPT-4o 标注

局限与展望¶

仅支持文本输入，未探索图像条件生成
固定离散词表，难以适应变化的设计空间
仅验证建筑类资产，未扩展到家具、车辆等其他模块化类别
纹理处理留给后处理，未端到端建模

评分¶

新颖性: ⭐⭐⭐⭐ 模块化 3D 资产的自回归生成是新方向
实验充分度: ⭐⭐⭐⭐ 多消融分析，与多种方法对比
写作质量: ⭐⭐⭐⭐ 实践导向，工业应用价值明确
价值: ⭐⭐⭐⭐ 对游戏 UGC 和 3D 内容创作有直接应用价值