跳转至

Towards Autonomous Micromobility through Scalable Urban Simulation

会议: CVPR 2025 (Highlight)
arXiv: 2505.00690
代码: 无(项目页面已下线)
领域: 自动驾驶 / 具身智能
关键词: 微出行, 城市仿真, 机器人学习, 具身智能体, benchmark

一句话总结

本文提出 URBAN-SIM(高性能城市机器人学习仿真平台)和 URBAN-BENCH(8 项微出行任务 benchmark),通过层级化城市场景生成、交互式动态生成和异步场景采样三大模块,实现大规模多样化城市环境中的具身智能体训练与评测,是推动自主微出行领域的系统性仿真方案。

研究背景与动机

领域现状:微出行(Micromobility)指利用轻量级移动设备(如配送机器人、电动轮椅、电动滑板车)在城市公共空间中行驶的出行方式。当前微出行设备大多依赖人工操控(现场或远程遥控),随着城市部署规模扩大,人工操控面临安全隐患和效率瓶颈。

现有痛点:(1) 缺乏专为微出行设计的仿真平台——现有自动驾驶仿真器(如 CARLA、nuPlan)面向车辆场景,道路结构、交通规则、传感器配置均与微出行设备不匹配;(2) 城市行人区域的场景多样性不足——人行道、广场、公园等非结构化环境的仿真难度远大于结构化道路;(3) 缺乏统一的微出行任务定义和评测标准。

核心矛盾:微出行设备需要在复杂、非结构化的城市行人空间中安全导航,但训练这类技能需要大量多样化的交互式城市场景。真实世界数据收集成本极高且存在安全风险,而现有仿真平台无法提供足够多样和逼真的行人级城市环境。

本文目标:(1) 构建一个高性能、可扩展的城市仿真平台,支持大规模机器人学习;(2) 定义一套覆盖微出行核心能力的任务 benchmark;(3) 评测不同形态机器人在各任务上的表现。

切入角度:作者从仿真的三大瓶颈——场景多样性、交互逼真度、训练效率出发,分别提出针对性模块。同时选择覆盖移动、导航、穿越三大核心技能的 8 项任务,并评测轮式和腿式共 4 种机器人形态。

核心 idea:通过程序化生成大规模多样城市场景 + GPU 并行异步采样 + 物理交互动态生成,构建"仿真基础设施"级别的平台,再基于此定义和评测微出行任务。

方法详解

整体框架

系统分为两大部分:URBAN-SIM(仿真平台)负责环境生成和物理仿真,URBAN-BENCH(任务 benchmark)定义具体的评测任务和指标。URBAN-SIM 以 Isaac Gym/Lab 为底层物理引擎,通过三个核心模块实现大规模高效训练:层级化城市生成(Hierarchical Urban Generation)提供多样场景,交互式动态生成(Interactive Dynamics Generation)提供逼真交互,异步场景采样(Asynchronous Scene Sampling)提供训练效率。

关键设计

  1. 层级化城市场景生成(Hierarchical Urban Generation):

    • 功能:程序化生成大量多样化的城市场景,包含不同地形、建筑布局、街道家具和行人
    • 核心思路:采用三级层级结构生成场景。宏观层:从真实城市地图(如 OpenStreetMap)提取路网拓扑和区域功能分区,确定场景的整体布局。中观层:在路网基础上程序化放置建筑物、人行道、十字路口、公园等城市元素,并随机化其几何参数(宽度、高度、材质)。微观层:在场景中添加街道家具(路灯、长椅、垃圾桶)、地形变化(坡道、台阶、粗糙路面)和动态行人。每一层的随机化参数独立控制,支持组合爆炸式的场景多样性。
    • 设计动机:微出行设备面临的环境远比车辆复杂——需要处理不规则人行道、各种路缘、街道障碍物等。层级化生成既保证了场景的结构合理性(因为基于真实地图),又通过多级随机化提供了充足的多样性。
  2. 交互式动态生成(Interactive Dynamics Generation):

    • 功能:为仿真场景注入逼真的动态交互元素,特别是行人行为
    • 核心思路:使用社会力模型(Social Force Model)驱动行人的基础运动,在此基础上添加反应式行为——行人会对接近的机器人做出避让、停步或改变方向等反应。此外,还模拟了动态障碍物(如开门的车辆、推购物车的行人)和环境变化(如施工区域遮蔽)。所有动态元素都在 GPU 上并行计算,保证不成为仿真瓶颈。
    • 设计动机:静态环境中训练的策略在部署到真实世界时通常会失败,因为行人的反应性行为是微出行安全性的核心挑战。交互式动态确保智能体学到的策略能处理动态干扰。
  3. 异步场景采样(Asynchronous Scene Sampling):

    • 功能:提升大规模并行训练时的 GPU 利用率
    • 核心思路:传统 RL 训练中,所有并行环境共享同一场景或同步切换场景,导致场景加载成为瓶颈。URBAN-SIM 采用异步机制:每个 GPU worker 维护一个场景缓冲池,当某个环境完成一个 episode 时,立即从缓冲池中随机取一个新场景继续训练,无需等待其他环境。场景缓冲池在后台线程中持续生成和填充。这样实现了训练效率与场景多样性的解耦。
    • 设计动机:微出行训练需要大量不同场景来避免过拟合,但频繁的场景切换会显著降低 GPU 利用率。异步采样通过流水线化的方式让场景准备和策略训练并行进行。

损失函数 / 训练策略

所有任务采用 PPO 强化学习算法训练。奖励函数针对每个任务分别设计:移动任务基于目标速度跟踪,导航任务基于到达目标点的距离和碰撞惩罚,穿越任务综合考虑通过率、时间效率和安全性。

实验关键数据

主实验:四种机器人在 URBAN-BENCH 上的表现

任务类别 具体任务 Unitree Go2 (腿式) Unitree H1 (双足) Clearpath Jackal (轮式) LoCoBot (轮式)
城市移动 平地行走 95.2% 88.7% 93.1% 91.5%
城市移动 崎岖地形 82.3% 71.5% 45.6% 38.2%
城市移动 上下台阶 76.8% 68.2% 12.3% 8.7%
城市导航 开阔区域导航 87.5% 82.1% 91.3% 88.6%
城市导航 拥挤人群导航 78.4% 72.3% 74.1% 70.5%
城市导航 窄通道导航 71.2% 65.8% 76.5% 73.9%
城市穿越 综合路线穿越 68.5% 58.3% 52.7% 45.1%
城市穿越 长距离穿越 62.1% 51.6% 64.3% 56.8%

消融实验:URBAN-SIM 各模块的影响

配置 崎岖地形成功率 拥挤导航成功率 综合穿越成功率 说明
Full URBAN-SIM 82.3% 78.4% 68.5% 完整系统
w/o 层级化场景生成 72.1% 69.2% 56.3% 场景多样性不足导致泛化差
w/o 交互式动态 80.5% 61.7% 55.8% 没有行人交互,导航任务退化明显
w/o 异步采样 81.8% 77.1% 67.2% 效果接近但训练时间增加 2.3x
固定单场景训练 58.4% 52.3% 38.6% 严重过拟合单一环境

关键发现

  • 形态决定能力边界:腿式机器人(Go2)在崎岖地形和台阶任务上大幅领先轮式机器人(成功率 82.3% vs 45.6%),但轮式机器人在平坦场景的导航效率更高
  • 场景多样性是泛化的关键:去掉层级化生成后,所有任务成功率下降 8-12 个百分点,固定单场景训练更是灾难性退化
  • 交互式动态对导航任务至关重要:去掉行人交互后拥挤导航成功率从 78.4% 降到 61.7%(-17pp),但对纯移动任务影响较小
  • 异步采样主要提升效率而非效果:成功率几乎不变,但训练时间减少 2.3 倍
  • 综合穿越任务(需要移动+导航+避障的组合能力)对所有机器人都是最大挑战

亮点与洞察

  • 系统设计思路清晰:从场景生成、交互动态、训练效率三个维度系统性地解决仿真平台的瓶颈,而非只解决单点问题。这种"仿真基础设施"的定位比具体算法创新更有长期影响力
  • 层级化程序化生成是一个可复用的技术范式:宏观用真实数据约束,中观和微观用程序化随机化,兼顾了真实性和多样性。可迁移到室内机器人仿真、无人机仿真等场景
  • 异形机器人对比提供了有价值的工程洞察:帮助从业者根据实际部署场景选择合适的机器人形态

局限与展望

  • 仿真到真实的迁移(sim-to-real)未验证——所有实验在仿真中完成,是否能迁移到真实世界仍是开放问题
  • 天气和光照变化未建模,真实世界的雨天、夜间场景可能导致策略失效
  • 仅评测了 RL 策略,未对比模仿学习或基于视觉的端到端方法
  • 行人行为模型较简单(社会力模型),未涵盖更复杂的交互场景(如行人突然冲出、宠物牵绳等)

相关工作与启发

  • vs CARLA: CARLA 面向车辆自动驾驶,道路结构和交通规则与微出行场景差异大;URBAN-SIM 专注行人级城市空间,填补了这一空白
  • vs Habitat/iGibson: 室内导航仿真器关注封闭空间,URBAN-SIM 处理开放城市环境中的大规模场景
  • vs MetaUrban: 同期工作 MetaUrban 也关注城市微出行仿真,但 URBAN-SIM 的层级化生成和异步采样在规模化方面更有优势

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统性定义微出行仿真平台和benchmark,填补领域空白
  • 实验充分度: ⭐⭐⭐⭐ 4种机器人×8项任务的全面评测,消融实验清晰
  • 写作质量: ⭐⭐⭐⭐ 系统架构描述层次分明,CVPR Highlight 名副其实
  • 价值: ⭐⭐⭐⭐⭐ 仿真平台级工作,对微出行和城市具身智能领域有基础设施级别的价值

相关论文