MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning¶

会议: NeurIPS 2025
arXiv: 2509.22281
代码: 有
领域: 机器人 / 3D 场景生成
关键词: 桌面场景生成, 空间推理链, LLM场景生成, DPO, 机器人操控

一句话总结¶

提出 MesaTask 框架，通过 Spatial Reasoning Chain 将任务描述分解为对象推理→空间关系推理→场景图构建→3D 布局，结合 10K+ 人工标注数据集和 DPO 优化，生成物理合理且任务对齐的桌面操控场景。

研究背景与动机¶

领域现状：机器人操控需要多样化的桌面场景用于策略训练，但传统方法依赖手工设计或纯随机布局，多样性和物理合理性难以兼顾。

现有痛点：现有 LLM 场景生成方法（LayoutGPT 等）零样本能力有限，难以建模堆叠、嵌套等复杂物体间关系。图像重建方法受遮挡影响严重。

核心矛盾：高层任务描述与具体 3D 布局之间存在巨大鸿沟——"准备一顿晚餐"如何转化为餐具、食物的精确 3D 位置和朝向？

切入角度：Spatial Reasoning Chain 将问题分解为 CoT——对象推理→属性描述→空间关系→场景图→3D 坐标。

核心 idea：SFT 注入空间推理能力 + DPO 消除碰撞和任务不对齐。

方法详解¶

整体框架¶

(1) MesaTask-10K 数据集构建（T2I → 深度估计 → 3D 检索 → 人工精修 → 物理仿真）；(2) Spatial Reasoning Chain 训练数据构建；(3) LLM SFT + DPO 训练。

关键设计¶

MesaTask-10K 数据集
- 功能：构建 10,700 个人工标注的桌面场景
- 核心思路：LLM 生成场景描述 → FLUX 生成参考图 → 深度估计+检测获取粗布局 → 人工在 Blender 中精修（10-20 分钟/场景）→ IsaacSim 物理仿真消除碰撞
- 设计动机：6 类桌面（办公、餐桌、厨房等），12,000+ 3D 资产（含铰接物体），200+ 对象类别
Spatial Reasoning Chain
- 功能：将任务→场景的过程结构化为推理链
- 核心思路：任务描述 → 对象列表推理（需要什么物体）→ 空间关系推理（谁在谁上面/里面/旁边）→ 场景图构建（节点+边）→ 3D 坐标生成
- 设计动机：直接预测 3D 坐标太难，分步推理降低复杂度
SFT + DPO 训练
- 功能：SFT 注入基本空间推理能力，DPO 消除碰撞和不对齐
- 核心思路：SFT 阶段用推理链数据训练；DPO 阶段构建 preferred/rejected 对（无碰撞 vs 有碰撞，任务对齐 vs 不对齐）
- 设计动机：SFT 后仍有少量碰撞和任务偏离，DPO 有效修复

损失函数 / 训练策略¶

SFT 阶段：标准语言模型 loss；DPO 阶段：\(\mathcal{L}_{DPO} = -\log\sigma(\beta(\log\frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}))\)。

实验关键数据¶

主实验¶

方法	FID↓	任务对齐↑	物理合理↑	布局合理↑
LayoutGPT (零样本)	185.3	3.2/5	2.8/5	2.5/5
LLPlace (SFT)	142.7	3.8/5	3.5/5	3.2/5
MesaTask (SFT)	98.5	4.2/5	4.0/5	3.8/5
MesaTask (SFT+DPO)	87.3	4.5/5	4.3/5	4.1/5

消融实验¶

配置	碰撞率↓	任务对齐↑
SFT only	12.3%	4.2/5
+ DPO (碰撞对)	4.1%	4.2/5
+ DPO (任务对)	11.8%	4.5/5
+ DPO (两者)	3.8%	4.5/5

关键发现¶

DPO 将碰撞率从 12.3% 降至 3.8%，同时提升任务对齐
复杂关系（堆叠、嵌套）的生成质量显著优于零样本方法
用户研究中 MesaTask 在所有维度上获得最高评分

亮点与洞察¶

Spatial Reasoning Chain：将抽象任务描述到 3D 坐标的巨大鸿沟分解为可学习的步骤。这个结构化推理思路可迁移到其他 3D 生成任务。
数据集贡献：10K+ 人工标注场景，包含堆叠/嵌套等复杂关系，填补了该领域数据空白。
DPO 在 3D 中的应用：首次将 DPO 用于物理碰撞消除，效果显著。

局限与展望¶

人工标注成本高（10-20 分钟/场景），扩展困难
3D 资产库虽大（12K+）但仍有覆盖盲区
仅在模拟器中验证，真实机器人部署需跨域迁移

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次形式化任务→场景生成
实验充分度: ⭐⭐⭐⭐⭐ FID+VLM评估+用户研究
写作质量: ⭐⭐⭐⭐⭐ 数据集+方法+评估系统性完整
价值: ⭐⭐⭐⭐⭐ 机器人操控场景生成的基础设施