跳转至

PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement

会议: ICLR 2026 arXiv: 2602.14968 代码: 项目页面 领域: llm_agent 关键词: 3D scene generation, physics engine, LLM agent, physical plausibility, predicate-based placement, probabilistic programming, robotic manipulation

一句话总结

提出 PhyScensis,一个结合物理引擎的 LLM agent 框架,通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景,在视觉质量、语义正确性和物理精度上显著超越先前方法,并成功用于机器人操作策略训练。

研究背景与动机

自动生成交互式 3D 环境对于规模化机器人仿真数据收集至关重要。然而现有方法存在多重不足:

  1. 程序化方法(ProcTHOR 等):受限于设计者预设的规则,无法覆盖开放场景
  2. 数据驱动方法(Transformer/Diffusion):受限于 3D 数据集的稀缺覆盖,尤其缺少精细的小物体摆放
  3. LLM agent 方法存在关键缺陷:
  4. 图像驱动方法(Architect、SceneTheis)受遮挡影响且缺乏细粒度控制
  5. 直接预测位置方法(LayoutGPT、3D-Generalist)受限于 LLM 的 3D 空间推理能力
  6. 谓词+求解器方法(LayoutVLM 等)仅用 2D AABB 碰撞检测,缺少反馈循环
  7. 物理交互被忽视:堆叠、容纳、支撑等物理关系未被建模,导致物体穿透和不稳定配置

核心挑战在于:复杂物理场景需要(a)高物体密度(b)丰富支撑关系(c)同时建模空间位置和物理属性。

方法详解

整体框架

三阶段流水线(Figure 2): 1. LLM Agent:根据用户文本提示生成物体列表 + 空间/物理谓词 + 物体描述(用于资产检索) 2. Solver:空间求解器处理 2D 位置约束,物理求解器通过物理引擎处理 3D 堆叠/容纳 3. Feedback System:分析生成场景并提供纠正信号,使 LLM agent 迭代优化

关键设计

1. 谓词体系定义

空间谓词(2D 平面约束): - 位置:left/right/front/back-of(指定距离),place-on-base(放置在桌面) - 对齐:align-left/right/front/back, align-center - 旋转:facing-to, facing-same-as, random-rot 等 - 对称:symmetry-along - 分组:group(创建虚拟组)、copy-group(复制保留结构)

物理谓词(3D 交互约束): - 容器放入:place-in(物体放入容器,物理下落模拟) - 堆叠:place-on(支撑比、稳定性可控) - 自由放置:place-anywhere(无穿透、有支撑的随机位置)

2. 空间求解器

基于 2D 凸包(而非 AABB)的碰撞检测,更精确且运行快: - 检查每个物体是否"完全求解"(x, y, yaw 均确定或可推断) - 未完全求解时反馈给 LLM agent 要求补充谓词 - 迭代优化谓词参数:最小化凸包重叠面积 + 边界越界距离

3. 物理求解器

place-in:类似 Blender 物理放置器——物体从容器上方释放,在力的作用下安定。

place-on / place-anywhere(Figure 4): - 占据网格启发式:场景和候选物体体素化为占据网格,通过网格搜索找无穿透且质心投影在支撑凸包内的候选位置 - 物理引擎验证:仅保留物理模拟后无大位移的候选 - 概率编程稳定性评估:在当前状态周围采样扰动(3D 位置、欧拉角、质量、质心偏移、摩擦系数),通过贝叶斯方法估计稳定概率

稳定性可控:可迭代选择"不稳定但未倒塌"的配置,实现图 3 中的极端不稳定摆放。

4. 反馈系统(三种类型)

语法反馈:检查谓词格式正确性和物体是否完全求解

求解器失败反馈:诊断穿透、超出桌面、堆叠失败等原因 + 估计拥挤度 + 识别空白区域(如"笔记本电脑后方桌面左侧有空白区域")

成功反馈: - 稳定性分数(物理引擎 + 概率编程) - VQA 分数(场景是否整齐/杂乱) - 启发式指标(表面覆盖率、紧凑度、物体数量)

损失函数

本文为生成框架而非训练方法,不涉及神经网络损失函数。优化目标为空间求解器中的碰撞/越界惩罚项,和物理求解器中的稳定性概率最大化/最小化。

实验关键数据

主实验

定量对比(Table 1)

方法 VQA Score↑ GPT Ranking↓ Settle Distance↓ Reaching (10试) Placing (10试)
Architect 0.493±0.392 2.607±0.673 0.405±0.471 3/10 0/10
3D-Generalist 0.578±0.399 1.946±0.731 0.033±0.048 4/10 1/10
PhyScensis 0.704±0.425 1.429±0.562 0.003±0.008 9/10 3/10

PhyScensis 在所有指标上显著领先: - VQA Score +21.8%(vs 3D-Generalist) - Settle Distance 降低 91%(物理精度) - 机器人 reaching 成功率 9/10 vs 4/10

用户研究(Table 4, 20人, 18案例, 1-5分)

方法 文本对齐↑ 自然性&物理↑ 复杂度↑
Architect 2.68 2.65 2.69
3D-Generalist 2.54 2.72 3.04
PhyScensis 4.04 3.98 3.82

消融实验

反馈系统消融(Table 2)

变体 重试次数↓ 时间消耗↓
无反馈 1.69±1.92 132.29±78.38
无空白区域报告 1.43±1.55 126.09±59.19
增加视觉反馈 0.95±0.91 120.65±53.62
完整框架 1.04±1.41 106.41±55.53

完整反馈系统将时间消耗从 132 秒降至 106 秒(20% 提速)。

谓词/求解器消融(Table 3)

变体 VQA Score↑ GPT Ranking↓ Settle Distance↓
Random 放置 0.415±0.363 2.706±0.666 0.004±0.003
LLM-Only (直接预测位置) 0.592±0.401 1.882±0.676 0.154±0.133
PhyScensis 0.704±0.425 1.411±0.492 0.003±0.008

随机放置虽然 Settle Distance 低(因为都在桌面上没有堆叠),但 VQA 和 GPT Ranking 极差。LLM-Only 有高 Settle Distance(物理不准确),PhyScensis 兼顾视觉质量和物理精度。

机器人实验: - 每种方法 300 个场景 × 1 个 demo 轨迹训练 diffusion policy - 10 个人工设计场景评估泛化 - PhyScensis 生成的场景更接近真实分布,训练的策略泛化更好

关键发现

  1. 物理引擎集成使 Settle Distance 降低两个数量级(0.003 vs 0.405)
  2. 基于谓词的方法远优于 LLM 直接预测位置(VQA +19%)
  3. 反馈系统(尤其是空白区域识别)显著提高迭代效率
  4. 生成的场景可有效用于机器人策略训练并泛化到人工设计的场景

亮点与洞察

  1. 物理引擎 + LLM agent 的优雅结合:LLM 负责高层语义理解和谓词生成,物理引擎保证低层物理准确性,各取所长
  2. 概率编程控制稳定性:不仅能生成稳定场景,还能有意生成极端不稳定摆放(用于机器人挑战性场景),这种精细可控性在以往工作中未见
  3. 丰富的谓词体系:空间+物理谓词的分层设计覆盖了绝大多数真实摆放场景,copy-group 等高级谓词支持复杂结构化布局
  4. 实际机器人应用验证:不仅是场景生成的学术评估,而是通过 imitation learning 实验证明了生成场景的实际价值
  5. 凸包碰撞检测:相比 AABB 提供更精准的 2D 碰撞检测,比全 3D mesh 交叉快很多,是工程上的好权衡

局限性

  1. 3D 资产依赖 BlenderKit 数据集 + 文本到 3D 管线,资产质量和多样性受限
  2. 物理求解器的占据网格分辨率限制了连续放置的精度
  3. 实验中机器人 placing 成功率仅 3/10,虽优于基线但绝对值仍低
  4. 生成速度(~106 秒/场景)对于大规模数据生成可能不够快
  5. 仅展示了桌面/货架/盒子等局部场景,未扩展到房间级全景

相关工作与启发

与 3D-Generalist(Sun et al., 2025b)的 VLM 逐点指定方案相比,PhyScensis 通过谓词体系绕过了 VLM 的空间推理弱点。与 Architect(Wang et al., 2024b)的图像修复方案相比,避免了深度估计引起的穿透问题。与 ClutterGen(Jia & Chen, 2024)的杂乱生成相比,PhyScensis 支持更复杂的堆叠和语义指令。

核心启发:将 LLM 的角色定位为"谓词生成器"而非"坐标预测器"是关键设计哲学。LLM 擅长语义理解和逻辑推理,但不擅长精确的 3D 空间推理。通过谓词中间表示将两类能力解耦,是 LLM+物理系统协作的通用范式。

评分

  • 新颖性: ⭐⭐⭐⭐ (物理引擎+LLM agent+概率编程的系统性结合在场景生成中属首创)
  • 实验充分度: ⭐⭐⭐⭐ (定量+定性+用户研究+机器人实验+消融,覆盖全面)
  • 写作质量: ⭐⭐⭐⭐ (方法描述清晰,图表精美,实验分析到位)
  • 价值: ⭐⭐⭐⭐ (对机器人仿真数据生成和 embodied AI 有直接价值)