GardenDesigner: Encoding Aesthetic Principles into Jiangnan Garden Construction via a Chain of Agents¶
会议: CVPR 2026
arXiv: 2604.01777
代码: https://github.com/monad-cube/GardenDesigner (有)
领域: 场景生成 / 文化遗产
关键词: 江南园林, 链式智能体, 程序化建模, 美学约束, 布局优化
一句话总结¶
提出 GardenDesigner 框架,通过链式智能体(地形分布→道路生成→资产选择→布局优化)将江南园林的美学原则编码为可计算的约束,结合专家标注的 GardenVerse 数据集,实现非专业用户通过文本输入在一分钟内自动构建符合美学规范的江南园林。
研究背景与动机¶
- 领域现状:江南园林是中国古典园林的重要流派,在数字旅游、影视游戏制作中有巨大应用潜力。传统的园林数字建模依赖专家经验,通常需要 3-4 位设计师耗时 3-4 周完成。
- 现有痛点:现有学习型场景生成方法受训练数据领域限制,泛化能力有限;程序化建模方法结合 LLM/VLM 主要聚焦室内空间或非结构化自然场景,无法处理江南园林特有的精细空间构成。
- 核心矛盾:江南园林涉及三个独特挑战——(1)复杂的水为中心的地形与空间布局,(2)抽象的美学原则难以编码为计算约束,(3)缺乏带文化标注的园林数据集。
- 本文目标 如何将江南园林的隐含美学规则(以水为中心、曲径通幽、象征微缩、不对称平衡)转化为可优化的程序化生成流程。
- 切入角度:将园林构建分解为四个顺序依赖的子任务,用链式智能体逐步执行,每个智能体内嵌美学约束。
- 核心 idea:用链式 LLM 智能体驱动程序化建模,将美学原则编码为遗传算法的适应度函数和布局优化的损失函数。
方法详解¶
整体框架¶
输入是用户文本描述,输出是一个完整的 3D 江南园林。Pipeline 分两大模块:(1)层级化园林构成(Hierarchical Garden Composition),生成地形和道路;(2)知识嵌入的资产排列(Knowledge-Embedded Asset Arrangement),选择资产并优化布局。四个智能体按链式执行:地形分布 \(\mathcal{A}_T\) → 道路生成 \(\mathcal{A}_R\) → 资产选择 \(\mathcal{A}_S\) → 布局优化 \(\mathcal{A}_C\),前一个智能体的输出作为后一个的输入。
关键设计¶
-
遗传算法驱动的地形生成(Terrain Distribution Agent)
- 功能:根据文本指令生成以水为中心的地形分布
- 核心思路:采用 2D 网格上的遗传算法,将地形分为 Outside/Waterbody/Land/Ground 四类。LLM 将用户文本转换为遗传算法参数(存在性、数量、覆盖率、单区域覆盖率),然后通过交叉、变异、进化操作生成地形。关键创新是引入以水为中心的适应度函数 \(L_{\text{terrain}} = f \cdot \max(1 - \frac{\sum c(T,(x_i,y_i))}{\phi}, 0)\),确保水体成为园林的空间组织核心。
- 设计动机:传统程序化地形算法无法捕捉江南园林以水为中心的空间逻辑,容易生成散乱的水塘和不自然的地形。
-
探索式道路生成(Road Generation Agent)
- 功能:在地形上生成符合"曲径通幽"原则的道路系统
- 核心思路:智能体先从用户指令中提取参数(入口数、关键点、主干道宽度、道路复杂度),然后在网格边界上通过评分机制选择最优路径。评分规则遵循三个来自美学原则的要求:道路可达大部分区域、优先沿边界行进、避免过度弯曲和过度笔直。公式化为 \(R = \mathcal{A}_R(\mathcal{S}(T, e_{i,j}), U, K_{\text{global}})\)。
- 设计动机:现有路径生成方法追求几何效率或均匀覆盖,忽略了江南园林"移步换景"的探索式路径设计原则。
-
知识引导的资产检索与美学约束布局优化
- 功能:从 GardenVerse 数据集中选择文化适配的资产,并按美学约束优化摆放
- 核心思路:资产选择智能体 \(\mathcal{A}_S\) 利用专家标注的园林知识(视觉属性、空间组合、适配季节等)构建向量存储,通过 LLM 查询为每个区域选择文化一致的资产。布局优化智能体 \(\mathcal{A}_C\) 定义了 5 类优化损失:Global(边缘/中间位置)、Position(环绕/背靠关系)、Distance(远近距离)、Alignment(对齐)、Rotation(朝向)。最终损失 \(\mathcal{L}_{\text{opt}} = \lambda_1 \mathcal{L}_{\text{glo}} + \lambda_2 \mathcal{L}_{\text{pos}} + \lambda_3 \mathcal{L}_{\text{dis}} + \lambda_4 \mathcal{L}_{\text{ali}} + \lambda_5 \mathcal{L}_{\text{rot}}\),通过深度优先搜索找到可行布局。
- 设计动机:通用 LLM 缺乏园林领域知识,无法推理建筑、植物、假山之间的文化关联;传统检索/约束方法无法捕捉文化层面的隐含空间逻辑。
损失函数 / 训练策略¶
地形生成使用以水为中心的适应度函数;布局优化使用 5 类空间约束损失的加权组合,权重设为 \(\lambda = \{2.0, 0.5, 1.8, 0.5, 0.5\}\);LLM 使用 GPT-5,Unity 作为可视化和交互平台。
实验关键数据¶
主实验¶
| 方法 | Path-S ↑ | Class-Div | FD | CLIP-S ↑ |
|---|---|---|---|---|
| Liu et al. (baseline) | 0 | 21.8±1.6 | 1.42±0.1 | 27.4±0.1 |
| GardenDesigner | 8.1±2.5 | 68.3±5.6 | 1.36±0.1 | 27.6±0.1 |
| 方法 | CLIP-A ↑ | VLM-S ↑ | QA-Quality ↑ |
|---|---|---|---|
| Liu et al. | 52.9±1.0 | 24.9±1.2 | 43.8±2.5 |
| GardenDesigner | 54.2±2.0 | 32.5±2.3 | 53.8±3.1 |
消融实验¶
| 配置 | FD | CLIP-S ↑ | VLM-S ↑ |
|---|---|---|---|
| GardenDesigner w/o Asset Arrange. | 1.27±0.1 | 27.4±0.1 | 31.6±1.1 |
| Full GardenDesigner | 1.36±0.1 | 27.6±0.1 | 32.5±2.3 |
关键发现¶
- Path-S 从 0 提升到 8.1,说明 baseline 根本生成不了合理的道路-建筑关系,而 GardenDesigner 的道路可以连接到重要景点。
- 资产多样性(Class-Div)提升了 3 倍以上(21.8→68.3),从 26 类到 71 类资产。
- FD=1.36 接近真实江南园林的分形维度范围(1.123-1.329),说明空间结构更自然。
- 人类评估中 11 位园林专家和 32 位普通用户均在所有维度上偏好 GardenDesigner,尤其是文化氛围维度。
- GardenVerse 数据集本身的加入就显著提升了 baseline 的质量,说明高质量领域数据集的重要性。
亮点与洞察¶
- 链式智能体分解设计非常巧妙:将复杂的园林构建分解为四个有清晰依赖关系的子任务,每个子任务都有明确的输入输出,既利用了 LLM 的语言理解能力,又通过程序化算法保证了空间约束的精确性。
- 美学原则的可计算化:将抽象的"以水为中心""曲径通幽"等美学理念转化为适应度函数和损失函数,这种人文知识→数学优化的桥接思路可以迁移到其他文化遗产数字化场景。
- GardenVerse 数据集的专家标注:不只标注基本信息,还包含园林领域知识(适配季节、文化语境等),为 LLM 提供了必要的领域知识补充。
局限与展望¶
- 依赖 GardenVerse 中有限的 132 个资产,多样性仍然受限,难以覆盖所有江南园林元素。
- 评估指标主要基于 VLM 评分和人类评估,缺乏对空间可达性、视线分析等园林设计专业指标的量化。
- 链式智能体的错误会逐层传播——如果地形生成不合理,后续所有步骤都会受影响。
- 当前仅针对江南园林风格,需要验证框架对其他园林风格(如皇家园林、日式庭院)的扩展性。
相关工作与启发¶
- vs Liu et al. (LLM for landscape):他们用 LLM 做通用景观,但缺乏园林专业知识和文化约束,生成的布局有大片空白。GardenDesigner 通过专家知识嵌入和美学损失函数解决了这个问题。
- vs Infinigen:Infinigen 侧重自然场景的程序化生成,但不涉及文化约束。GardenDesigner 的链式智能体+美学编码范式可以推广到其他文化场景。
- 这篇论文展示了人文知识计算化的可能性,启发我们思考如何将其他领域的专家经验编码为可优化的约束。
评分¶
- 新颖性: ⭐⭐⭐⭐ 将江南园林美学原则编码为计算框架,这个切入点本身很独特,但技术层面主要是对现有方法的组合
- 实验充分度: ⭐⭐⭐⭐ 有定量对比+人类评估+消融,但仅有一个baseline
- 写作质量: ⭐⭐⭐⭐ 结构清晰,美学原则的形式化描述做得好
- 价值: ⭐⭐⭐⭐ 文化遗产数字化是重要方向,GardenVerse数据集有独立价值
相关论文¶
- [CVPR 2026] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs
- [CVPR 2026] See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
- [ICLR 2026] Scaling Generalist Data-Analytic Agents
- [ECCV 2024] Occlusion Handling in 3D Human Pose Estimation with Perturbed Positional Encoding
- [NeurIPS 2025] Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning