跳转至

ArtLLM: Generating Articulated Assets via 3D LLM

日期: 2026-03-01
arXiv: 2603.01142
代码: 无
领域: 3D视觉 / 铰接体生成
关键词: articulated object, 3D LLM, URDF generation, part layout, kinematic structure

一句话总结

提出 ArtLLM,将铰接物体的运动学结构(部件布局 + 关节参数)表示为离散 token 序列,用 3D 多模态大语言模型自回归预测,再配合部件感知几何生成和物理约束后处理,在 PartNet-Mobility 上大幅超越现有方法,并成功构建 real2sim 数字孪生。

研究背景与动机

  1. 领域现状:游戏、机器人和仿真需要可操纵的铰接 3D 物体(门、抽屉、复杂机械等),其功能由部件几何和运动学结构决定。自动生成铰接资产对机器人仿真训练和虚拟环境至关重要。
  2. 两条主要路线的局限
    • 优化重建方法(NeRF/3DGS):逐物体优化关节参数,速度慢、几何质量低、通常仅支持单关节简单物体。
    • 检索拼装方法(SINGAPO/URDFormer):从固定部件库检索,几何重复性高、泛化能力差。
  3. 核心矛盾:通用 3D 生成已能高质量合成物体,部件级生成(XPart、OmniPart)也日趋成熟,但这些方法不感知运动学结构——部件的视觉语义与其机械角色之间存在脱节。需要一种统一方法同时推理几何和铰接。
  4. 本文切入点:将铰接结构看成语言序列问题,利用 LLM 对不定长序列的建模能力和语义先验,自回归预测部件布局和关节参数,无需固定部件库,也不需要逐物体优化。
  5. 核心 idea:用 3D LLM 将点云输入映射为 URDF 风格的离散 token 序列(部件边界框 + 关节类型/轴/位置/范围),再用现有部件生成模型合成高保真几何。

方法详解

整体框架

输入为物体点云(32768 点 + 法线),经 Point Transformer v3 编码 + MLP 投影后送入 Qwen3 0.6B LLM,自回归输出 tokenized 铰接蓝图(先预测所有部件的 AABB 边界框,separator token 后预测所有关节定义)。蓝图再驱动 XPart 进行部件级几何生成,最后经物理约束后处理修正关节范围。整体 pipeline 分四阶段:3D LLM 预测 → 边界框扩展 → 部件几何合成 → 物理碰撞修正。

关键设计

  1. 铰接结构的语言化表示

    • 做什么:将 URDF 运动学结构(部件 + 关节)编码为文本 token 序列
    • 核心思路:每个部件用 AABB 6 参数表示 BBox(xmin, ymin, zmin, xmax, ymax, zmax);每个关节按类型(Revolute/Continuous/Prismatic/Screw)编码为 Joint(parent_id, child_id, direction, position, limit)。生成顺序固定为先部件后关节,确保关节预测以完整部件布局为条件。
    • 设计动机:LLM 擅长处理变长序列,天然适配部件/关节数量不固定的铰接物体;比直接回归浮点数更稳定。
  2. 量化离散化策略

    • 做什么:将连续几何/运动学参数转为离散 bin index
    • 核心思路:边界框坐标和关节原点量化为 128 bins(范围 \([-1,1]\)),旋转角度量化为 48 bins(范围 \([-2\pi, 2\pi]\)),平移距离量化为 64 bins(范围 \([-2, 2]\))。关节轴方向用 128 词条码本——先在 XY/YZ/XZ 平面单位圆均匀采样(覆盖轴对齐方向),再用 FPS 从 Fibonacci 球面补充。
    • 设计动机:LLM 本质上从离散词表预测 token,直接回归浮点数数值不稳定(消融实验证实,连续预测在坐标/方向相关指标上显著退化)。码本分层设计利用了关节轴多沿坐标轴对齐的先验。
  3. 多任务多阶段 SFT

    • 做什么:将训练解耦为三个子任务 + 两阶段渐进式训练
    • 核心思路:Task 1 只预测部件布局,Task 2 给定 GT 布局预测关节,Task 3 端到端预测。Stage 1 仅训练 Task 1(8×H20,50 epoch,~8h),用 P3SAM 预训练权重初始化点云编码器,建立几何基础。Stage 2 用 Stage 1 权重初始化,混合三任务训练(混合比 3:2:5,30 epoch,~15h)。
    • 设计动机:先让编码器专注部件级感知,再引入运动学推理,解耦两种能力的学习。消融证明去掉多阶段(实验 D)或多任务(实验 B)均导致性能下降。
  4. 边界框扩展 + 部件几何合成

    • 做什么:用 XPart 从预测的边界框条件生成部件几何,并处理边界框不精确的问题
    • 核心思路:遍历输入点云,将未被任何预测框包含的点分配给最近框,再扩展框以紧密包围新分配的点。这保证整个点云被覆盖,避免部件被截断。
    • 设计动机:预测的边界框不可能完美覆盖 GT 几何,不做扩展会导致生成部件不完整。
  5. 物理约束关节范围修正

    • 做什么:后处理步骤,通过碰撞检测修正关节运动范围
    • 核心思路:对旋转关节,在预测范围内以离散步长铰接子部件,计算与其他静态部件的碰撞体积。碰撞体积导数出现尖峰处即为初始接触角度,通过层次搜索精确定位,设为修正后的无碰撞范围。平移关节类似处理。
    • 设计动机:模型仅看单时刻几何,无法感知动态运动中的碰撞,导致铰接时部件互穿,影响物理仿真的真实性。

训练数据

构建了 20,673 个铰接物体的大规模数据集,来自三个来源: - PartNet-Mobility:2168 个,43 类 - PhysX3D:7672 个,23 类 - Infinite-Mobility(程序化生成):10833 个,13 类

数据预处理包括:过滤 >20 关节的物体、移除固定关节并合并 link、合并螺旋关节、全局坐标归一化到 \([-0.9, 0.9]\)、修正法线。

损失函数 / 训练策略

使用标准交叉熵损失进行 SFT。学习率 1e-5,余弦调度,warmup ratio 0.03。数据增强:以 0.75 概率对点云做随机缩放(\(s \in [0.8, 1.05]\))和随机旋转(90°/180°/270° 绕 y 轴),同时对布局和铰接标注做相同变换。

实验关键数据

主实验

在 PartNet-Mobility 7 类 77 个测试物体上评估(SINGAPO 划分)。指标:部件 mIoU↑、关节类型准确率↑、轴角度误差↓、轴位置误差↓、范围 IoU↑、图结构准确率↑。

方法 Part mIoU↑ Type Acc↑ Axis Err↓ Pivot Err↓ Range IoU↑ Graph Acc↑ 推理时间(s)
ArtLLM (Ours) 0.6884 0.9084 0.1271 0.0801 0.7398 0.7741 19
ArtAnything 0.3381 0.8457 0.4529 0.5361 0.8653 0.6142 522
SINGAPO 0.4330 0.7649 0.2445 0.2567 0.5256 0.4564 84
URDFormer 0.1225 0.6068 0.7377 0.6095 0.7032 0.0791 183

ArtLLM 在部件布局(mIoU 0.69 vs 次优 0.43)、关节类型(0.91 vs 0.85)、轴预测(角度误差 0.13 vs 0.24)、图结构(0.77 vs 0.61)上全面领先,推理速度 19s 远快于其他方法(84-522s)。ArtAnything 在范围 IoU 上更好,但其轴位置误差极大(0.54)。

消融实验

在 PartNet-Mobility 训练集训练 30 epoch,144 个测试物体。

配置 Part mIoU↑ Type Acc↑ Axis Err↓ Pivot Err↓ Range IoU↑ Graph Acc↑
Full model 0.473 0.898 0.141 0.135 0.582 0.780
A: 连续值预测(不量化) 0.352 0.823 0.277 0.235 0.575 0.775
B: 去掉多任务 0.464 0.825 0.289 0.131 0.510 0.737
C: 去掉数据增强 0.412 0.894 0.142 0.138 0.577 0.754
D: 去掉多阶段训练 0.463 0.890 0.143 0.175 0.511 0.780

关键发现

  • 量化 vs 连续(A):影响最大,Part mIoU 从 0.47→0.35,轴角度误差几乎翻倍(0.14→0.28),证实离散化对 LLM 自回归预测至关重要。
  • 多任务(B):去掉后范围 IoU 和图准确率均下降,但轴方向稍有提升——说明多任务的协同训练整体有益但存在轻微 task interference。
  • 数据增强(C):主要影响 Part mIoU(0.47→0.41),说明随机缩放/旋转增强了空间感知。
  • 多阶段(D):去掉后轴位置误差显著增大(0.14→0.18),范围 IoU 下降,表明先学部件再学关节的渐进策略有效。
  • 物理碰撞修正定性显示能消除自碰撞,使运动更自然。

亮点与洞察

  • 将铰接结构预测转化为语言建模问题是本文最核心的 insight。LLM 天然处理变长序列,128-bin 量化 + 轴方向码本的设计让连续参数预测变得稳定,且码本分层设计(先坐标轴对齐再球面 FPS)利用了关节的几何先验。
  • 端到端且实用:从图像/文本出发,经 3D 生成 → 点云采样 → ArtLLM → 部件生成 → URDF 导出,全流程 19s 输出仿真就绪的铰接资产,比 ArtAnything 快 27 倍。
  • real2sim 验证很有说服力:在真实机器人上遥操作三个任务(合笔记本、关盒子、拨桶把手),用 ArtLLM 重建铰接资产后在 SAPIEN 中回放,运动行为与真实一致。

局限性 / 可改进方向

  • 类别覆盖有限:虽然训练了 20k+ 物体,但仅 43 类,主要是家居物品。对车辆、机器人等复杂类别泛化困难。
  • 不建模物理属性:如质量、摩擦力、材质等,限制了仿真中的物理真实性。
  • 依赖 3D 生成质量:XPart 无法生成内部凹结构(如烤箱内部面包架),导致最终资产缺失精细结构。这是上游生成模型的瓶颈。
  • 单时刻输入:模型只看静态点云,无法从动态观测中推断运动学,未来可引入视频输入。

相关工作与启发

  • vs SINGAPO:SINGAPO 前馈预测部件布局 + 关节,但从固定部件库检索几何,泛化受限。ArtLLM 用 LLM 自回归预测 + 生成模型合成几何,在 Part mIoU 上提升 59%(0.69 vs 0.43)。
  • vs Articulate-Anything:依赖 GPT-4o + 规则推理,关节范围预测好但轴定位极差(误差 0.54 vs 0.08),且推理 522s 太慢。
  • vs URDFormer:假设物体由外框 + 内部组件构成,模式僵化,Part mIoU 仅 0.12。
  • 启发:这种"将结构化预测转为语言建模"的范式可能可迁移到其他领域,如场景图生成、分子结构预测等。

评分

  • 新颖性: ⭐⭐⭐⭐ 将铰接结构建模为语言序列的思路新颖,量化码本设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 定量对比+消融+real2sim 应用,但测试集仅 77 个物体
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 为机器人仿真提供了实用的铰接资产生成方案