PhyScensis: Physics-Augmented LLM Agents for Complex Physical Scene Arrangement¶

会议: ICLR 2026 arXiv: 2602.14968 代码: 项目页面领域: llm_agent 关键词: 3D scene generation, physics engine, LLM agent, physical plausibility, predicate-based placement, probabilistic programming, robotic manipulation

一句话总结¶

提出 PhyScensis，一个结合物理引擎的 LLM agent 框架，通过空间与物理谓词驱动的求解器生成高复杂度、物理准确的 3D 场景，在视觉质量、语义正确性和物理精度上显著超越先前方法，并成功用于机器人操作策略训练。

研究背景与动机¶

自动生成交互式 3D 环境对于规模化机器人仿真数据收集至关重要。然而现有方法存在多重不足：

程序化方法（ProcTHOR 等）：受限于设计者预设的规则，无法覆盖开放场景
数据驱动方法（Transformer/Diffusion）：受限于 3D 数据集的稀缺覆盖，尤其缺少精细的小物体摆放
LLM agent 方法存在关键缺陷：
图像驱动方法（Architect、SceneTheis）受遮挡影响且缺乏细粒度控制
直接预测位置方法（LayoutGPT、3D-Generalist）受限于 LLM 的 3D 空间推理能力
谓词+求解器方法（LayoutVLM 等）仅用 2D AABB 碰撞检测，缺少反馈循环
物理交互被忽视：堆叠、容纳、支撑等物理关系未被建模，导致物体穿透和不稳定配置

核心挑战在于：复杂物理场景需要（a）高物体密度（b）丰富支撑关系（c）同时建模空间位置和物理属性。

方法详解¶

整体框架¶

三阶段流水线（Figure 2）： 1. LLM Agent：根据用户文本提示生成物体列表 + 空间/物理谓词 + 物体描述（用于资产检索） 2. Solver：空间求解器处理 2D 位置约束，物理求解器通过物理引擎处理 3D 堆叠/容纳 3. Feedback System：分析生成场景并提供纠正信号，使 LLM agent 迭代优化

关键设计¶

1. 谓词体系定义¶

空间谓词（2D 平面约束）： - 位置：left/right/front/back-of（指定距离），place-on-base（放置在桌面） - 对齐：align-left/right/front/back, align-center - 旋转：facing-to, facing-same-as, random-rot 等 - 对称：symmetry-along - 分组：group（创建虚拟组）、copy-group（复制保留结构）

物理谓词（3D 交互约束）： - 容器放入：place-in（物体放入容器，物理下落模拟） - 堆叠：place-on（支撑比、稳定性可控） - 自由放置：place-anywhere（无穿透、有支撑的随机位置）

2. 空间求解器¶

基于 2D 凸包（而非 AABB）的碰撞检测，更精确且运行快： - 检查每个物体是否"完全求解"（x, y, yaw 均确定或可推断） - 未完全求解时反馈给 LLM agent 要求补充谓词 - 迭代优化谓词参数：最小化凸包重叠面积 + 边界越界距离

3. 物理求解器¶

place-in：类似 Blender 物理放置器——物体从容器上方释放，在力的作用下安定。

place-on / place-anywhere（Figure 4）： - 占据网格启发式：场景和候选物体体素化为占据网格，通过网格搜索找无穿透且质心投影在支撑凸包内的候选位置 - 物理引擎验证：仅保留物理模拟后无大位移的候选 - 概率编程稳定性评估：在当前状态周围采样扰动（3D 位置、欧拉角、质量、质心偏移、摩擦系数），通过贝叶斯方法估计稳定概率

稳定性可控：可迭代选择"不稳定但未倒塌"的配置，实现图 3 中的极端不稳定摆放。

4. 反馈系统（三种类型）¶

语法反馈：检查谓词格式正确性和物体是否完全求解

求解器失败反馈：诊断穿透、超出桌面、堆叠失败等原因 + 估计拥挤度 + 识别空白区域（如"笔记本电脑后方桌面左侧有空白区域"）

成功反馈： - 稳定性分数（物理引擎 + 概率编程） - VQA 分数（场景是否整齐/杂乱） - 启发式指标（表面覆盖率、紧凑度、物体数量）

损失函数¶

本文为生成框架而非训练方法，不涉及神经网络损失函数。优化目标为空间求解器中的碰撞/越界惩罚项，和物理求解器中的稳定性概率最大化/最小化。

实验关键数据¶

主实验¶

定量对比（Table 1）：

方法	VQA Score↑	GPT Ranking↓	Settle Distance↓	Reaching (10试)	Placing (10试)
Architect	0.493±0.392	2.607±0.673	0.405±0.471	3/10	0/10
3D-Generalist	0.578±0.399	1.946±0.731	0.033±0.048	4/10	1/10
PhyScensis	0.704±0.425	1.429±0.562	0.003±0.008	9/10	3/10

PhyScensis 在所有指标上显著领先： - VQA Score +21.8%（vs 3D-Generalist） - Settle Distance 降低 91%（物理精度） - 机器人 reaching 成功率 9/10 vs 4/10

用户研究（Table 4, 20人, 18案例, 1-5分）：

方法	文本对齐↑	自然性&物理↑	复杂度↑
Architect	2.68	2.65	2.69
3D-Generalist	2.54	2.72	3.04
PhyScensis	4.04	3.98	3.82

消融实验¶

反馈系统消融（Table 2）：

变体	重试次数↓	时间消耗↓
无反馈	1.69±1.92	132.29±78.38
无空白区域报告	1.43±1.55	126.09±59.19
增加视觉反馈	0.95±0.91	120.65±53.62
完整框架	1.04±1.41	106.41±55.53

完整反馈系统将时间消耗从 132 秒降至 106 秒（20% 提速）。

谓词/求解器消融（Table 3）：

变体	VQA Score↑	GPT Ranking↓	Settle Distance↓
Random 放置	0.415±0.363	2.706±0.666	0.004±0.003
LLM-Only (直接预测位置)	0.592±0.401	1.882±0.676	0.154±0.133
PhyScensis	0.704±0.425	1.411±0.492	0.003±0.008

随机放置虽然 Settle Distance 低（因为都在桌面上没有堆叠），但 VQA 和 GPT Ranking 极差。LLM-Only 有高 Settle Distance（物理不准确），PhyScensis 兼顾视觉质量和物理精度。

机器人实验： - 每种方法 300 个场景 × 1 个 demo 轨迹训练 diffusion policy - 10 个人工设计场景评估泛化 - PhyScensis 生成的场景更接近真实分布，训练的策略泛化更好

关键发现¶

物理引擎集成使 Settle Distance 降低两个数量级（0.003 vs 0.405）
基于谓词的方法远优于 LLM 直接预测位置（VQA +19%）
反馈系统（尤其是空白区域识别）显著提高迭代效率
生成的场景可有效用于机器人策略训练并泛化到人工设计的场景

亮点与洞察¶

物理引擎 + LLM agent 的优雅结合：LLM 负责高层语义理解和谓词生成，物理引擎保证低层物理准确性，各取所长
概率编程控制稳定性：不仅能生成稳定场景，还能有意生成极端不稳定摆放（用于机器人挑战性场景），这种精细可控性在以往工作中未见
丰富的谓词体系：空间+物理谓词的分层设计覆盖了绝大多数真实摆放场景，copy-group 等高级谓词支持复杂结构化布局
实际机器人应用验证：不仅是场景生成的学术评估，而是通过 imitation learning 实验证明了生成场景的实际价值
凸包碰撞检测：相比 AABB 提供更精准的 2D 碰撞检测，比全 3D mesh 交叉快很多，是工程上的好权衡

局限性¶

3D 资产依赖 BlenderKit 数据集 + 文本到 3D 管线，资产质量和多样性受限
物理求解器的占据网格分辨率限制了连续放置的精度
实验中机器人 placing 成功率仅 3/10，虽优于基线但绝对值仍低
生成速度（~106 秒/场景）对于大规模数据生成可能不够快
仅展示了桌面/货架/盒子等局部场景，未扩展到房间级全景

评分¶

新颖性: ⭐⭐⭐⭐ (物理引擎+LLM agent+概率编程的系统性结合在场景生成中属首创)
实验充分度: ⭐⭐⭐⭐ (定量+定性+用户研究+机器人实验+消融，覆盖全面)
写作质量: ⭐⭐⭐⭐ (方法描述清晰，图表精美，实验分析到位)
价值: ⭐⭐⭐⭐ (对机器人仿真数据生成和 embodied AI 有直接价值)