ArtLLM: Generating Articulated Assets via 3D LLM¶
日期: 2026-03-01
arXiv: 2603.01142
代码: 无
领域: 3D视觉 / 铰接体生成
关键词: articulated object, 3D LLM, URDF generation, part layout, kinematic structure
一句话总结¶
提出 ArtLLM,将铰接物体的运动学结构(部件布局 + 关节参数)表示为离散 token 序列,用 3D 多模态大语言模型自回归预测,再配合部件感知几何生成和物理约束后处理,在 PartNet-Mobility 上大幅超越现有方法,并成功构建 real2sim 数字孪生。
研究背景与动机¶
- 领域现状:游戏、机器人和仿真需要可操纵的铰接 3D 物体(门、抽屉、复杂机械等),其功能由部件几何和运动学结构决定。自动生成铰接资产对机器人仿真训练和虚拟环境至关重要。
- 两条主要路线的局限:
- 优化重建方法(NeRF/3DGS):逐物体优化关节参数,速度慢、几何质量低、通常仅支持单关节简单物体。
- 检索拼装方法(SINGAPO/URDFormer):从固定部件库检索,几何重复性高、泛化能力差。
- 核心矛盾:通用 3D 生成已能高质量合成物体,部件级生成(XPart、OmniPart)也日趋成熟,但这些方法不感知运动学结构——部件的视觉语义与其机械角色之间存在脱节。需要一种统一方法同时推理几何和铰接。
- 本文切入点:将铰接结构看成语言序列问题,利用 LLM 对不定长序列的建模能力和语义先验,自回归预测部件布局和关节参数,无需固定部件库,也不需要逐物体优化。
- 核心 idea:用 3D LLM 将点云输入映射为 URDF 风格的离散 token 序列(部件边界框 + 关节类型/轴/位置/范围),再用现有部件生成模型合成高保真几何。
方法详解¶
整体框架¶
输入为物体点云(32768 点 + 法线),经 Point Transformer v3 编码 + MLP 投影后送入 Qwen3 0.6B LLM,自回归输出 tokenized 铰接蓝图(先预测所有部件的 AABB 边界框,separator token 后预测所有关节定义)。蓝图再驱动 XPart 进行部件级几何生成,最后经物理约束后处理修正关节范围。整体 pipeline 分四阶段:3D LLM 预测 → 边界框扩展 → 部件几何合成 → 物理碰撞修正。
关键设计¶
-
铰接结构的语言化表示
- 做什么:将 URDF 运动学结构(部件 + 关节)编码为文本 token 序列
- 核心思路:每个部件用 AABB 6 参数表示
BBox(xmin, ymin, zmin, xmax, ymax, zmax);每个关节按类型(Revolute/Continuous/Prismatic/Screw)编码为Joint(parent_id, child_id, direction, position, limit)。生成顺序固定为先部件后关节,确保关节预测以完整部件布局为条件。 - 设计动机:LLM 擅长处理变长序列,天然适配部件/关节数量不固定的铰接物体;比直接回归浮点数更稳定。
-
量化离散化策略
- 做什么:将连续几何/运动学参数转为离散 bin index
- 核心思路:边界框坐标和关节原点量化为 128 bins(范围 \([-1,1]\)),旋转角度量化为 48 bins(范围 \([-2\pi, 2\pi]\)),平移距离量化为 64 bins(范围 \([-2, 2]\))。关节轴方向用 128 词条码本——先在 XY/YZ/XZ 平面单位圆均匀采样(覆盖轴对齐方向),再用 FPS 从 Fibonacci 球面补充。
- 设计动机:LLM 本质上从离散词表预测 token,直接回归浮点数数值不稳定(消融实验证实,连续预测在坐标/方向相关指标上显著退化)。码本分层设计利用了关节轴多沿坐标轴对齐的先验。
-
多任务多阶段 SFT
- 做什么:将训练解耦为三个子任务 + 两阶段渐进式训练
- 核心思路:Task 1 只预测部件布局,Task 2 给定 GT 布局预测关节,Task 3 端到端预测。Stage 1 仅训练 Task 1(8×H20,50 epoch,~8h),用 P3SAM 预训练权重初始化点云编码器,建立几何基础。Stage 2 用 Stage 1 权重初始化,混合三任务训练(混合比 3:2:5,30 epoch,~15h)。
- 设计动机:先让编码器专注部件级感知,再引入运动学推理,解耦两种能力的学习。消融证明去掉多阶段(实验 D)或多任务(实验 B)均导致性能下降。
-
边界框扩展 + 部件几何合成
- 做什么:用 XPart 从预测的边界框条件生成部件几何,并处理边界框不精确的问题
- 核心思路:遍历输入点云,将未被任何预测框包含的点分配给最近框,再扩展框以紧密包围新分配的点。这保证整个点云被覆盖,避免部件被截断。
- 设计动机:预测的边界框不可能完美覆盖 GT 几何,不做扩展会导致生成部件不完整。
-
物理约束关节范围修正
- 做什么:后处理步骤,通过碰撞检测修正关节运动范围
- 核心思路:对旋转关节,在预测范围内以离散步长铰接子部件,计算与其他静态部件的碰撞体积。碰撞体积导数出现尖峰处即为初始接触角度,通过层次搜索精确定位,设为修正后的无碰撞范围。平移关节类似处理。
- 设计动机:模型仅看单时刻几何,无法感知动态运动中的碰撞,导致铰接时部件互穿,影响物理仿真的真实性。
训练数据¶
构建了 20,673 个铰接物体的大规模数据集,来自三个来源: - PartNet-Mobility:2168 个,43 类 - PhysX3D:7672 个,23 类 - Infinite-Mobility(程序化生成):10833 个,13 类
数据预处理包括:过滤 >20 关节的物体、移除固定关节并合并 link、合并螺旋关节、全局坐标归一化到 \([-0.9, 0.9]\)、修正法线。
损失函数 / 训练策略¶
使用标准交叉熵损失进行 SFT。学习率 1e-5,余弦调度,warmup ratio 0.03。数据增强:以 0.75 概率对点云做随机缩放(\(s \in [0.8, 1.05]\))和随机旋转(90°/180°/270° 绕 y 轴),同时对布局和铰接标注做相同变换。
实验关键数据¶
主实验¶
在 PartNet-Mobility 7 类 77 个测试物体上评估(SINGAPO 划分)。指标:部件 mIoU↑、关节类型准确率↑、轴角度误差↓、轴位置误差↓、范围 IoU↑、图结构准确率↑。
| 方法 | Part mIoU↑ | Type Acc↑ | Axis Err↓ | Pivot Err↓ | Range IoU↑ | Graph Acc↑ | 推理时间(s) |
|---|---|---|---|---|---|---|---|
| ArtLLM (Ours) | 0.6884 | 0.9084 | 0.1271 | 0.0801 | 0.7398 | 0.7741 | 19 |
| ArtAnything | 0.3381 | 0.8457 | 0.4529 | 0.5361 | 0.8653 | 0.6142 | 522 |
| SINGAPO | 0.4330 | 0.7649 | 0.2445 | 0.2567 | 0.5256 | 0.4564 | 84 |
| URDFormer | 0.1225 | 0.6068 | 0.7377 | 0.6095 | 0.7032 | 0.0791 | 183 |
ArtLLM 在部件布局(mIoU 0.69 vs 次优 0.43)、关节类型(0.91 vs 0.85)、轴预测(角度误差 0.13 vs 0.24)、图结构(0.77 vs 0.61)上全面领先,推理速度 19s 远快于其他方法(84-522s)。ArtAnything 在范围 IoU 上更好,但其轴位置误差极大(0.54)。
消融实验¶
在 PartNet-Mobility 训练集训练 30 epoch,144 个测试物体。
| 配置 | Part mIoU↑ | Type Acc↑ | Axis Err↓ | Pivot Err↓ | Range IoU↑ | Graph Acc↑ |
|---|---|---|---|---|---|---|
| Full model | 0.473 | 0.898 | 0.141 | 0.135 | 0.582 | 0.780 |
| A: 连续值预测(不量化) | 0.352 | 0.823 | 0.277 | 0.235 | 0.575 | 0.775 |
| B: 去掉多任务 | 0.464 | 0.825 | 0.289 | 0.131 | 0.510 | 0.737 |
| C: 去掉数据增强 | 0.412 | 0.894 | 0.142 | 0.138 | 0.577 | 0.754 |
| D: 去掉多阶段训练 | 0.463 | 0.890 | 0.143 | 0.175 | 0.511 | 0.780 |
关键发现¶
- 量化 vs 连续(A):影响最大,Part mIoU 从 0.47→0.35,轴角度误差几乎翻倍(0.14→0.28),证实离散化对 LLM 自回归预测至关重要。
- 多任务(B):去掉后范围 IoU 和图准确率均下降,但轴方向稍有提升——说明多任务的协同训练整体有益但存在轻微 task interference。
- 数据增强(C):主要影响 Part mIoU(0.47→0.41),说明随机缩放/旋转增强了空间感知。
- 多阶段(D):去掉后轴位置误差显著增大(0.14→0.18),范围 IoU 下降,表明先学部件再学关节的渐进策略有效。
- 物理碰撞修正定性显示能消除自碰撞,使运动更自然。
亮点与洞察¶
- 将铰接结构预测转化为语言建模问题是本文最核心的 insight。LLM 天然处理变长序列,128-bin 量化 + 轴方向码本的设计让连续参数预测变得稳定,且码本分层设计(先坐标轴对齐再球面 FPS)利用了关节的几何先验。
- 端到端且实用:从图像/文本出发,经 3D 生成 → 点云采样 → ArtLLM → 部件生成 → URDF 导出,全流程 19s 输出仿真就绪的铰接资产,比 ArtAnything 快 27 倍。
- real2sim 验证很有说服力:在真实机器人上遥操作三个任务(合笔记本、关盒子、拨桶把手),用 ArtLLM 重建铰接资产后在 SAPIEN 中回放,运动行为与真实一致。
局限性 / 可改进方向¶
- 类别覆盖有限:虽然训练了 20k+ 物体,但仅 43 类,主要是家居物品。对车辆、机器人等复杂类别泛化困难。
- 不建模物理属性:如质量、摩擦力、材质等,限制了仿真中的物理真实性。
- 依赖 3D 生成质量:XPart 无法生成内部凹结构(如烤箱内部面包架),导致最终资产缺失精细结构。这是上游生成模型的瓶颈。
- 单时刻输入:模型只看静态点云,无法从动态观测中推断运动学,未来可引入视频输入。
相关工作与启发¶
- vs SINGAPO:SINGAPO 前馈预测部件布局 + 关节,但从固定部件库检索几何,泛化受限。ArtLLM 用 LLM 自回归预测 + 生成模型合成几何,在 Part mIoU 上提升 59%(0.69 vs 0.43)。
- vs Articulate-Anything:依赖 GPT-4o + 规则推理,关节范围预测好但轴定位极差(误差 0.54 vs 0.08),且推理 522s 太慢。
- vs URDFormer:假设物体由外框 + 内部组件构成,模式僵化,Part mIoU 仅 0.12。
- 启发:这种"将结构化预测转为语言建模"的范式可能可迁移到其他领域,如场景图生成、分子结构预测等。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将铰接结构建模为语言序列的思路新颖,量化码本设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 定量对比+消融+real2sim 应用,但测试集仅 77 个物体
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 为机器人仿真提供了实用的铰接资产生成方案