SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation¶

会议: CVPR 2026
arXiv: 2603.12238
代码: github.com/ROUJINN/SceneAssistant
领域: 3D视觉 / 场景生成
关键词: 3D场景生成, 开放词汇, VLM Agent, 视觉反馈, ReAct

一句话总结¶

提出基于视觉反馈的VLM agent框架，通过14个完备Action API让VLM在ReAct闭环中迭代优化3D场景布局，无需预定义空间关系模板，在人类评估中Layout得分7.600（vs SceneWeaver 5.800），Human Preference 65%。

背景与动机¶

现有text-to-3D scene方法分两类：数据驱动方法(NeRF/3DGS)受限于数据集且不可编辑；基于LLM的检索布局方法(Holodeck/SceneWeaver)依赖预定义空间关系原语(on, face_to等)，局限于特定领域。当描述涉及预定义词汇之外的复杂空间配置时，优化过程失败。

核心问题¶

如何实现不受领域限制的开放词汇3D场景生成？不能依赖预定义空间关系模板，需要VLM自行通过视觉理解来判断和调整布局。

方法详解¶

整体框架¶

自然语言描述 → VLM agent(Gemini-3.0-Flash)按ReAct范式迭代：每步接收渲染图+物体元数据 → 推理选择Action API执行 → Blender渲染新场景 → 视觉反馈 → 循环直到Finish或最大20步。3D资产由Z-Image(文生图)+Hunyuan3D(图生3D mesh)生成。

关键设计¶

完备Action API: 14个原子操作分三类——物体增删(Create/Duplicate/Delete)、6-DoF操控(Place/Translate/Rotate/Scale)、相机控制(ViewScene/FocusOn等)。核心设计：抽象底层Blender操作为语义化命令，避免让VLM生成复杂代码而分散推理注意力。
纯视觉反馈闭环: 每步只提供当前渲染图(不累积历史图像)+历史action序列+物体坐标。渲染图上标注物体名称标签+坐标轴HUD做视觉增强。BVH-tree碰撞检测自动通知agent。
自校正与质量控制: 3D资产质量不佳时，agent可视觉发现→Delete→修改描述重新Create。地面穿透自动修正。training-free，完全基于VLM zero-shot推理。

损失函数 / 训练策略¶

无训练。纯prompt engineering驱动VLM agent行为。

实验关键数据¶

场景类型	方法	Layout↑	Obj Quality↑	Human Pref↑
Indoor(8)	Holodeck	4.475	4.763	6.25%
Indoor(8)	SceneWeaver	5.800	6.150	36.25%
Indoor(8)	SceneAssistant	6.888	6.950	61.25%
Open-vocab(22)	SceneAssistant	7.600	7.277	65.00%

消融实验要点¶

去掉Action API(改JSON输出): Layout -0.595, Preference -29pp——"认知分散"
去掉视觉反馈(one-shot): Layout -1.345, Preference -38pp——影响最大
去掉Visual Prompting(标签/坐标轴): agent无法精确定位物体

亮点¶

Action API抽象思路精妙——让VLM保持在"推理最优区间"
纯视觉反馈闭环，不依赖场景图等结构化中间表示
模块化可扩展，Action API可方便添加新操作

局限性 / 可改进方向¶

复杂场景下agent倾向批量初始化所有物体再调整，不够增量
受限于VLM/3D生成器能力天花板，需多次运行才能得到满意结果
评估仅human evaluation（30场景/10评估者），缺乏自动化指标

与相关工作的对比¶

Holodeck: 预定义空间关系+物理求解器，Indoor Pref仅6.25%
SceneWeaver: 反射式agent但仍依赖预定义空间原语，36.25%

启发与关联¶

VLM-as-Agent的Action API设计范式可迁移到其他3D生成/编辑任务
视觉反馈闭环 > 开环生成的insight对所有VLM agent系统有参考价值

评分¶

新颖性: ⭐⭐⭐⭐ 纯视觉反馈+完备API的组合新颖，但ReAct框架本身不新
实验充分度: ⭐⭐⭐ 仅human evaluation，无自动化指标
写作质量: ⭐⭐⭐⭐ 清晰易懂
价值: ⭐⭐⭐⭐ 为开放词汇3D场景生成提供了实用范式