跳转至

AeroScene: Progressive Scene Synthesis for Aerial Robotics

日期: 2026-03-24
arXiv: 2603.23224
代码: 无
领域: 3D视觉 / 场景生成 / 无人机
关键词: scene synthesis, aerial robotics, hierarchical diffusion, drone simulation, physics-aware

一句话总结

提出 AeroScene,面向无人机仿真的层次化 3D 场景生成模型:通过可学习的 tokenizability 分数将物体路由到粗/细分支 + 跨尺度渐进注意力(top-down/bottom-up 交替)+ 碰撞/一致性/语义三重引导,在自建 1016 场景数据集上碰撞率 6.2%,无人机导航成功率 91%。

研究背景与动机

  1. 领域现状: 无人机仿真依赖手工环境,不可扩展且缺乏物理合理性和语义一致性。

  2. 现有痛点: 现有场景合成方法(DiffuScene、PhyScene)将布局视为扁平集合,缺乏跨尺度推理能力——建筑级粗结构和着陆区细节需要层次化建模。

  3. 核心 idea: 层次感知 tokenization 分离全局布局推理和局部细节推理 + 引导目标直接集成到扩散过程。

方法详解

整体框架

物体表示为 \(o_i=(\mathbf{p}_i, \mathbf{q}_i, \mathbf{s}_i, c_i)\)(位置+四元数朝向+尺度+类别),通过可学习的 tokenizability 分数 \(\tau_i\) 路由到粗/细分支,扩散模型在粗细双分支上联合去噪,三重引导目标直接注入逆扩散过程。

关键设计

  1. 层次感知 Tokenization:

    • 做什么:可学习分数 \(\tau_i=\sigma(\mathbf{w}_\tau^\top \text{MLP}(\mathbf{f}_i^{(0)}))\) 将物体分为粗(建筑、道路)和细(障碍物、着陆区)两类
    • 粗分支用 3D CNN 处理全局布局:\(F_{\text{coarse}}=\text{CNN}_{\text{coarse}}(\mathcal{T}_{\text{coarse}})\)
    • 细分支用 GNN 处理局部空间邻接:\(F_{\text{fine}}=\text{GNN}_{\text{fine}}(\mathcal{T}_{\text{fine}}, G_{\text{fine}})\)
    • 设计动机:建筑级粗结构需要 3D 全局感受野,障碍物等细物体需要关注局部邻接关系
  2. 跨尺度渐进注意力:

    • Top-down(粗→细):\(Q=F_{\text{fine}}, K,V=F_{\text{coarse}}\),传播全局结构约束
    • Bottom-up(细→粗):\(Q=F_{\text{coarse}}, K,V=F_{\text{fine}}\),注入局部细节
    • 交替执行保证双向信息流通
  3. 三重引导目标:

    • 碰撞避免:\(\mathcal{L}_{\text{col}}=\sum_{i\neq j}\max(0, \text{IoU}(B_i,B_j)-\delta_d)\)
    • 粗细一致性:\(\mathcal{L}_{\text{c2f}}=\sum_{o_i\in\text{fine}}\text{dist}(\mathbf{p}_i, \mathcal{R}_{\text{coarse}}(o_i))\)
    • 语义约束:\(\mathcal{L}_{\text{sem}}=-\sum\log P_{\text{sem}}(c_i,c_j,r_{ij})\)
    • 直接集成到扩散逆过程,无需后处理

训练细节

  • Adam optimizer,lr \(2\times10^{-4}\),batch 64,800 epochs(A100)
  • 推理 100 步逆扩散,~22 分钟/场景
  • 数据集:1016 场景(812 训练 / 204 测试),平均 149 物体/场景

实验关键数据

主实验

方法 FID↓ KID↓ 碰撞率↓ CFC↓ SP↓
ATISS 45.2 0.032 12.5% 0.21 3.8
Diffusion-SDF 38.7 0.028 10.1% 0.18 3.5
DiffuScene 32.4 0.025 8.3% 0.15 3.2
PhyScene 29.8 0.023 7.1% 0.13 3.0
AeroScene 27.3 0.021 6.2% 0.12 2.7

在 3D-FRONT 上:FID 25.8,碰撞率 5.5%

消融实验

配置 FID↓ 碰撞率↓ CFC↓ SP↓
完整 (ours) 27.3 6.2% 0.12 2.7
去碰撞引导 32.1 8.7% (+40%) 0.13 2.8
去 C2F 引导 30.5 6.5% 0.15 (+25%) 2.9
去语义约束 31.8 6.4% 0.13 3.5 (-30%)
去全部引导 35.4 9.2% 0.17 3.9

下游任务验证

  • 无人机导航/着陆成功率:91%
  • 测试平台:3DR Iris 和 AscTec Hummingbird 两种无人机
  • 每场景 300 条测试轨迹
  • NVIDIA Isaac Sim 直接导入

亮点与洞察

  • 层次感知分支解决了跨尺度推理问题——建筑级和障碍物级物体视觉结构差异巨大,分支处理合理
  • 引导目标直接集成到扩散(而非后处理),比 rejection sampling 高效
  • 1016 场景 + 16 万物体的数据集填补无人机仿真空白,可直接导入 Isaac Sim
  • 碰撞引导去掉后 CR 恶化 40%,语义约束去掉后 SP 恶化 30%,说明物理/语义约束不是扩散模型自然学到的
  • 无人机导航成功率 91% 验证了生成场景的仿真实用性

相关工作与启发

  • vs PhyScene: PhyScene 只做室内场景布局,AeroScene 扩展到城市级室内外混合,层次分离是关键差异
  • vs DiffuScene: DiffuScene 将布局视为扁平集合,无法建模建筑与障碍物的层次关系

局限性 / 可改进方向

  • 仅仿真验证,sim-to-real gap 未探索
  • 推理 22 分钟/场景偏慢,不适合实时应用
  • 静态场景假设,无风力/动态障碍建模
  • 场景类型受限于训练数据,极端环境泛化性未知

评分

  • 新颖性: ⭐⭐⭐ 层次化思路在场景合成中有先例,但应用到无人机领域较新
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集 + 三维消融 + 下游任务验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式规范
  • 价值: ⭐⭐⭐ 对无人机仿真有实用价值,但受众较窄