PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement¶
会议: ICLR 2026 arXiv: 2602.14968 代码: 项目页面 领域: llm_agent 关键词: 3D scene generation, physics engine, LLM agent, physical plausibility, predicate-based placement, probabilistic programming, robotic manipulation
一句话总结¶
提出 PhyScensis,一个结合物理引擎的 LLM agent 框架,通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景,在视觉质量、语义正确性和物理精度上显著超越先前方法,并成功用于机器人操作策略训练。
研究背景与动机¶
自动生成交互式 3D 环境对于规模化机器人仿真数据收集至关重要。然而现有方法存在多重不足:
- 程序化方法(ProcTHOR 等):受限于设计者预设的规则,无法覆盖开放场景
- 数据驱动方法(Transformer/Diffusion):受限于 3D 数据集的稀缺覆盖,尤其缺少精细的小物体摆放
- LLM agent 方法存在关键缺陷:
- 图像驱动方法(Architect、SceneTheis)受遮挡影响且缺乏细粒度控制
- 直接预测位置方法(LayoutGPT、3D-Generalist)受限于 LLM 的 3D 空间推理能力
- 谓词+求解器方法(LayoutVLM 等)仅用 2D AABB 碰撞检测,缺少反馈循环
- 物理交互被忽视:堆叠、容纳、支撑等物理关系未被建模,导致物体穿透和不稳定配置
核心挑战在于:复杂物理场景需要(a)高物体密度(b)丰富支撑关系(c)同时建模空间位置和物理属性。
方法详解¶
整体框架¶
三阶段流水线(Figure 2): 1. LLM Agent:根据用户文本提示生成物体列表 + 空间/物理谓词 + 物体描述(用于资产检索) 2. Solver:空间求解器处理 2D 位置约束,物理求解器通过物理引擎处理 3D 堆叠/容纳 3. Feedback System:分析生成场景并提供纠正信号,使 LLM agent 迭代优化
关键设计¶
1. 谓词体系定义¶
空间谓词(2D 平面约束): - 位置:left/right/front/back-of(指定距离),place-on-base(放置在桌面) - 对齐:align-left/right/front/back, align-center - 旋转:facing-to, facing-same-as, random-rot 等 - 对称:symmetry-along - 分组:group(创建虚拟组)、copy-group(复制保留结构)
物理谓词(3D 交互约束): - 容器放入:place-in(物体放入容器,物理下落模拟) - 堆叠:place-on(支撑比、稳定性可控) - 自由放置:place-anywhere(无穿透、有支撑的随机位置)
2. 空间求解器¶
基于 2D 凸包(而非 AABB)的碰撞检测,更精确且运行快: - 检查每个物体是否"完全求解"(x, y, yaw 均确定或可推断) - 未完全求解时反馈给 LLM agent 要求补充谓词 - 迭代优化谓词参数:最小化凸包重叠面积 + 边界越界距离
3. 物理求解器¶
place-in:类似 Blender 物理放置器——物体从容器上方释放,在力的作用下安定。
place-on / place-anywhere(Figure 4): - 占据网格启发式:场景和候选物体体素化为占据网格,通过网格搜索找无穿透且质心投影在支撑凸包内的候选位置 - 物理引擎验证:仅保留物理模拟后无大位移的候选 - 概率编程稳定性评估:在当前状态周围采样扰动(3D 位置、欧拉角、质量、质心偏移、摩擦系数),通过贝叶斯方法估计稳定概率
稳定性可控:可迭代选择"不稳定但未倒塌"的配置,实现图 3 中的极端不稳定摆放。
4. 反馈系统(三种类型)¶
语法反馈:检查谓词格式正确性和物体是否完全求解
求解器失败反馈:诊断穿透、超出桌面、堆叠失败等原因 + 估计拥挤度 + 识别空白区域(如"笔记本电脑后方桌面左侧有空白区域")
成功反馈: - 稳定性分数(物理引擎 + 概率编程) - VQA 分数(场景是否整齐/杂乱) - 启发式指标(表面覆盖率、紧凑度、物体数量)
损失函数¶
本文为生成框架而非训练方法,不涉及神经网络损失函数。优化目标为空间求解器中的碰撞/越界惩罚项,和物理求解器中的稳定性概率最大化/最小化。
实验关键数据¶
主实验¶
定量对比(Table 1):
| 方法 | VQA Score↑ | GPT Ranking↓ | Settle Distance↓ | Reaching (10试) | Placing (10试) |
|---|---|---|---|---|---|
| Architect | 0.493±0.392 | 2.607±0.673 | 0.405±0.471 | 3/10 | 0/10 |
| 3D-Generalist | 0.578±0.399 | 1.946±0.731 | 0.033±0.048 | 4/10 | 1/10 |
| PhyScensis | 0.704±0.425 | 1.429±0.562 | 0.003±0.008 | 9/10 | 3/10 |
PhyScensis 在所有指标上显著领先: - VQA Score +21.8%(vs 3D-Generalist) - Settle Distance 降低 91%(物理精度) - 机器人 reaching 成功率 9/10 vs 4/10
用户研究(Table 4, 20人, 18案例, 1-5分):
| 方法 | 文本对齐↑ | 自然性&物理↑ | 复杂度↑ |
|---|---|---|---|
| Architect | 2.68 | 2.65 | 2.69 |
| 3D-Generalist | 2.54 | 2.72 | 3.04 |
| PhyScensis | 4.04 | 3.98 | 3.82 |
消融实验¶
反馈系统消融(Table 2):
| 变体 | 重试次数↓ | 时间消耗↓ |
|---|---|---|
| 无反馈 | 1.69±1.92 | 132.29±78.38 |
| 无空白区域报告 | 1.43±1.55 | 126.09±59.19 |
| 增加视觉反馈 | 0.95±0.91 | 120.65±53.62 |
| 完整框架 | 1.04±1.41 | 106.41±55.53 |
完整反馈系统将时间消耗从 132 秒降至 106 秒(20% 提速)。
谓词/求解器消融(Table 3):
| 变体 | VQA Score↑ | GPT Ranking↓ | Settle Distance↓ |
|---|---|---|---|
| Random 放置 | 0.415±0.363 | 2.706±0.666 | 0.004±0.003 |
| LLM-Only (直接预测位置) | 0.592±0.401 | 1.882±0.676 | 0.154±0.133 |
| PhyScensis | 0.704±0.425 | 1.411±0.492 | 0.003±0.008 |
随机放置虽然 Settle Distance 低(因为都在桌面上没有堆叠),但 VQA 和 GPT Ranking 极差。LLM-Only 有高 Settle Distance(物理不准确),PhyScensis 兼顾视觉质量和物理精度。
机器人实验: - 每种方法 300 个场景 × 1 个 demo 轨迹训练 diffusion policy - 10 个人工设计场景评估泛化 - PhyScensis 生成的场景更接近真实分布,训练的策略泛化更好
关键发现¶
- 物理引擎集成使 Settle Distance 降低两个数量级(0.003 vs 0.405)
- 基于谓词的方法远优于 LLM 直接预测位置(VQA +19%)
- 反馈系统(尤其是空白区域识别)显著提高迭代效率
- 生成的场景可有效用于机器人策略训练并泛化到人工设计的场景
亮点与洞察¶
- 物理引擎 + LLM agent 的优雅结合:LLM 负责高层语义理解和谓词生成,物理引擎保证低层物理准确性,各取所长
- 概率编程控制稳定性:不仅能生成稳定场景,还能有意生成极端不稳定摆放(用于机器人挑战性场景),这种精细可控性在以往工作中未见
- 丰富的谓词体系:空间+物理谓词的分层设计覆盖了绝大多数真实摆放场景,copy-group 等高级谓词支持复杂结构化布局
- 实际机器人应用验证:不仅是场景生成的学术评估,而是通过 imitation learning 实验证明了生成场景的实际价值
- 凸包碰撞检测:相比 AABB 提供更精准的 2D 碰撞检测,比全 3D mesh 交叉快很多,是工程上的好权衡
局限性¶
- 3D 资产依赖 BlenderKit 数据集 + 文本到 3D 管线,资产质量和多样性受限
- 物理求解器的占据网格分辨率限制了连续放置的精度
- 实验中机器人 placing 成功率仅 3/10,虽优于基线但绝对值仍低
- 生成速度(~106 秒/场景)对于大规模数据生成可能不够快
- 仅展示了桌面/货架/盒子等局部场景,未扩展到房间级全景
相关工作与启发¶
与 3D-Generalist(Sun et al., 2025b)的 VLM 逐点指定方案相比,PhyScensis 通过谓词体系绕过了 VLM 的空间推理弱点。与 Architect(Wang et al., 2024b)的图像修复方案相比,避免了深度估计引起的穿透问题。与 ClutterGen(Jia & Chen, 2024)的杂乱生成相比,PhyScensis 支持更复杂的堆叠和语义指令。
核心启发:将 LLM 的角色定位为"谓词生成器"而非"坐标预测器"是关键设计哲学。LLM 擅长语义理解和逻辑推理,但不擅长精确的 3D 空间推理。通过谓词中间表示将两类能力解耦,是 LLM+物理系统协作的通用范式。
评分¶
- 新颖性: ⭐⭐⭐⭐ (物理引擎+LLM agent+概率编程的系统性结合在场景生成中属首创)
- 实验充分度: ⭐⭐⭐⭐ (定量+定性+用户研究+机器人实验+消融,覆盖全面)
- 写作质量: ⭐⭐⭐⭐ (方法描述清晰,图表精美,实验分析到位)
- 价值: ⭐⭐⭐⭐ (对机器人仿真数据生成和 embodied AI 有直接价值)