跳转至

Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing

会议: CVPR 2026
arXiv: 2603.17583
代码: GitHub
领域: LLM效率
关键词: 3D scene editing, goal regression, PDDL, LLM planning, symbolic reasoning

一句话总结

将开放词汇的3D室内场景编辑重新定义为目标回归规划问题,设计PDDL风格的EditLang符号语言,通过LLM驱动的Planner-Validator循环从目标状态逆向推导最小编辑序列,在63个编辑任务上同时实现指令忠实度(69.1%)、语义一致性(86.6%)和物理合理性(91.7%)三个指标的最佳平衡。

研究背景与动机

领域现状:3D室内场景编辑有三类主流方法——数据驱动的布局生成(DiffuScene/EditRoom用扩散模型)、约束优化(Holodeck/AnyHome将语言转为空间约束再求解)、图像编辑+3D提升(ArtiScene先在2D编辑再重建3D)。

现有痛点:三类方法各自只能满足三个关键需求中的部分——指令忠实度、语义一致性(不动不该动的部分)、物理合理性(无碰撞/无悬浮)。布局生成方法容易全局改变场景;约束优化可能大范围重优化导致非目标物体移位;图像编辑缺乏3D推理,产生结构伪影。

核心矛盾:现有方法将编辑视为生成任务(一步前向输出整个场景),但这使得"只改需要改的、保留其余部分"变得极难保证。

本文目标:同时实现指令忠实、语义一致和物理合理的3D场景编辑。

切入角度:受embodied agent和经典AI规划启发,将编辑视为目标满足问题——"用户指令定义了一个期望的世界状态,编辑应该是使该状态成立的最小动作序列"。从目标逆向推导到当前场景,天然保证最小化编辑。

核心 idea:把场景编辑从"生成问题"转变为"规划问题",用STRIPS风格的目标回归确保编辑的最小性、可验证性和物理一致性。

方法详解

整体框架

输入为源3D场景 \(S_0\) 和自然语言指令 \(I\),输出为编辑后场景 \(S_T\)。三步流程:(1) LLM将指令转为EditLang符号目标谓词 \(G_T\);(2) Planner-Validator循环逆向规划——Planner提出满足当前目标的动作,Validator验证四重标准(目标导向性、单调性、上下文一致性、形式合法性),通过后用源感知回归更新目标集;(3) 反转动作序列,用Python DSL执行几何变换。

关键设计

  1. EditLang符号编辑语言

    • 功能:定义PDDL风格的场景编辑领域,包含谓词和动作
    • 核心思路:谓词描述几何/拓扑/物理关系(如 supported(x,y), contact(x,y), collision(x,y), stable(x), facing(x,y)),每个动作定义为三元组 \(\langle \text{pre}(a), \text{add}(a), \text{del}(a) \rangle\),状态转移 \(s' = (s \setminus \text{del}(a)) \cup \text{add}(a)\)。支持几何重排、物体添加(Add)和外观修改(Stylize)三类操作
    • 设计动机:将自由文本映射到结构化符号空间,使编辑过程可验证、可解释、可组合。与传统PDDL不同,EditLang动态绑定场景中的具体物体,支持开放词汇
  2. 源感知目标回归(Source-Aware Goal Regression)

    • 功能:从目标状态逆向推导必要的动作序列
    • 核心思路:经典STRIPS回归会重复推理已满足的条件,改进的源感知回归公式为 \(G_{t-1} = (G_t \setminus \text{add}(a_t)) \cup (\text{pre}(a_t) \setminus S_0)\)——只传播在源场景中未满足的前置条件,已满足的自动跳过
    • 设计动机:避免不必要的"重建"已正确的场景部分,确保编辑最小化——这是前向生成方法无法保证的
  3. Planner-Validator双模块验证

    • 功能:Planner提出动作,Validator四重检查后决定接受或拒绝
    • 核心思路:Validator检查——(1) 目标导向性:\(\text{add}(a_t)\) 必须满足 \(G_t\) 中至少一个目标;(2) 单调性:\(\text{del}(a_t) \cap G^{\text{sat}}_{\leq t} = \emptyset\),不撤销已达成目标;(3) 上下文一致性:编辑结果符合房间特定约束;(4) 形式合法性:符合EditLang schema。维护领域不变量(无碰撞、单一支撑面等)
    • 设计动机:LLM生成的规划不一定正确,Validator提供了形式化的安全网。单调性约束+有限状态空间保证规划循环必然终止

损失函数 / 训练策略

本方法完全基于LLM推理,无需训练。Planner和Validator都用LLM(如GPT-4)通过prompting驱动。每步执行后重新从几何计算谓词,确保符号状态与3D场景同步。

实验关键数据

主实验

E2A-Bench 9个场景类别平均

方法 指令忠实度(IF)↑ 语义一致性(SC)↑ 物理合理性(PP)↑
LayoutGPT-E 42.3 48.8 78.6
AnyHome 57.6 60.5 84.5
ArtiScene-E 48.3 51.2 90.3
Edit-As-Act 69.1 86.6 91.7

消融实验

场景类别 IF SC PP 说明
Dining Room 89.7 95.3 92.7 最佳场景,结构化程度高
Kitchen 55.0 92.3 93.7 IF较低但SC/PP很高
Bedroom 45.7 73.1 91.9 布局灵活性大导致IF较低
Computer Room 73.6 88.0 94.1 物品关系明确

关键发现

  • Edit-As-Act是唯一在IF/SC/PP三个指标上都表现最好的方法(其他方法只能在1-2个指标上有优势)
  • 语义一致性(86.6%)远超第二名AnyHome(60.5%),说明目标回归的最小化编辑策略非常有效
  • 在结构化场景(餐厅、计算机房)中表现最佳,在布局灵活的场景(卧室)中IF较弱——说明符号规划在约束明确时优势更大
  • 物理合理性(91.7%)略优于ArtiScene-E(90.3%),因为编辑动作的前置条件显式检查碰撞和支撑

亮点与洞察

  • 范式转换:将3D编辑从"生成问题"转为"规划问题"是根本性的视角转变——一旦有了结构化的动作空间和目标回归,编辑的最小性、可验证性、可组合性自然成立
  • 把LLM当规划器而非生成器:不让LLM直接输出编辑结果,而是让它在符号空间中提出动作,由形式化Validator检查——这种"LLM提议+形式验证"的架构可以推广到很多LLM应用场景
  • 源感知回归:相比经典STRIPS的一个小但关键的改进——自动过滤已满足条件,避免不必要的推理和编辑

局限与展望

  • 完全依赖LLM的推理能力,对于非常复杂的多步编辑可能会出现规划错误
  • E2A-Bench仅63个任务,规模较小,且评估主要依赖LVLM打分
  • EditLang的谓词集虽然覆盖主要关系,但对于更精细的空间关系(如"距墙50cm")表达力有限
  • 不支持连续优化(如"让房间看起来更宽敞"这类模糊指令)

相关工作与启发

  • vs LayoutGPT: LayoutGPT直接用LLM前向生成布局,缺乏验证机制,IF=42.3远低于本文69.1
  • vs AnyHome: 约束优化方法在物理合理性上较好(84.5)但语义一致性差(60.5)——因为重优化会移动非目标物体
  • vs ArtiScene: 图像编辑+3D提升在PP上不错(90.3)但IF(48.3)和SC(51.2)都弱——2D操作无法保证3D一致性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将经典AI规划(STRIPS/PDDL)引入3D场景编辑是非常有创意的范式转换
  • 实验充分度: ⭐⭐⭐ benchmark规模偏小(63任务),评估依赖LVLM
  • 写作质量: ⭐⭐⭐⭐⭐ 问题动机、形式化定义、方法设计层层递进,非常清晰
  • 价值: ⭐⭐⭐⭐ LLM+符号规划的组合对embodied AI有重要启发

相关论文