跳转至

Benchmarking Egocentric Visual-Inertial SLAM at City Scale

会议: ICCV 2025
arXiv: 2509.26639
代码: lamaria.ethz.ch(数据集与评测平台)
领域: 3D视觉 / SLAM
关键词: Visual-Inertial SLAM, 第一人称视觉, Benchmark, 城市尺度定位, 可穿戴设备

一句话总结

提出 LaMAria——首个城市尺度的第一人称多传感器 VIO/SLAM 基准数据集,利用测绘级控制点提供厘米精度的地面真值,系统评估了学术界主流 SLAM 方案在真实第一人称场景下的表现,揭示了现有方法与商业系统之间的巨大差距。

背景与动机

随着 AR 眼镜等可穿戴设备的发展,第一人称(egocentric)场景下的精确 6-DoF 定位变得至关重要。然而,现有的 VIO/SLAM 数据集几乎都源自机器人或车辆平台,运动模式受控、规模有限,且地面真值依赖室内动捕系统(覆盖范围小)或 GNSS(精度不足)。第一人称数据有其独特的挑战:运动更加多样和不可控(头部自然摆动、乘坐交通工具)、长时序录制导致相机标定漂移、夜间低光照、室内外过渡曝光变化、动态场景(行人、自身身体遮挡)等。这些挑战在学术基准中几乎没有被覆盖。

核心问题

  1. 缺少合适的基准: 没有一个数据集同时满足"第一人称采集 + 城市尺度 + 厘米级精度地面真值 + 多传感器 + 多种挑战场景"
  2. 现有 SLAM 系统的鲁棒性未知: 学术界顶级方法在受控数据(如 EuRoC)上表现良好,但面对真实第一人称数据时到底会怎样?差距有多大?

方法详解

整体框架

这是一篇 数据集/基准论文,核心贡献是 LaMAria 数据集的设计与一套可靠的评估方法。整体思路分三步:(1) 用 Project Aria 眼镜在苏黎世城区录制大量第一人称多传感器数据;(2) 借助测绘学的「控制点」方法获得厘米精度的位姿标注;(3) 在该数据集上系统评测 8+ 种主流 VIO/SLAM 方案。

关键设计

  1. 数据采集——Project Aria 设备: 采用 Meta 的 Project Aria 眼镜形态设备,搭载双灰度全局快门相机(640×480, 20FPS)、一个 RGB 卷帘快门相机(1408×1408, 10FPS)、双 IMU(1kHz / 800Hz)、磁力计、气压计、GNSS、WiFi/蓝牙等。6 个月内在苏黎世市中心录制 63 条序列,覆盖约 1.5km² 范围、50m 高差,平均每条序列 1.5km / 26 分钟,最长 2.87km / 48 分钟。总计超过 22 小时、70+ 公里的轨迹。

  2. 厘米精度的稀疏地面真值——控制点对齐: 这是本文最关键的技术创新。作者利用测绘领域的「控制点(Control Points, CPs)」——苏黎世市政维护的 483 个已知精确坐标的地面标记点(水平精度 ~1cm)。在每个控制点上放置 AprilTag 标记物,Aria 设备经过时自动检测。评估时,将 SLAM 输出轨迹中检测到的标记物进行三角化,再通过 Sim(3) 变换与控制点对齐,对齐误差即反映轨迹精度。不同于 EuRoC 等密集动捕地面真值,该方法虽然稀疏但精度极高(交叉验证显示误差比不确定度高 70 倍),且可扩展到城市尺度。

  3. 稠密伪地面真值——多传感器联合优化: 为支持细粒度分析,作者还基于 Aria SLAM 初始轨迹,联合优化视觉特征重投影误差、IMU 预积分约束、控制点三角化误差和控制点对齐误差,生成稠密的伪 GT 位姿,位置不确定度中位数约 20cm。

  4. 分级实验集: 设计 4 级难度递增的受控实验集——Level I(平台上受控运动)到 Level IV(真实头戴第一人称运动),在学术标准数据集和全挑战数据集之间搭建桥梁,帮助精确定位系统的失败点。

损失函数 / 训练策略

(本文为基准数据集论文,无训练策略。)

评分函数设计: 对每个控制点的对齐误差 \(e\) 采用分段线性评分函数 \(s(e)\):误差 ≤5cm 得 100 分,50cm 处得 75 分,1m 处 60 分,2m 处 40 分,5m 处 20 分,≥10m 得 0 分。还报告 CP@1m(控制点 1m 内的召回率)和 R@5m(与稠密伪 GT 的 5m 位置召回率)。

实验关键数据

主要结果(多相机 + IMU 配置,2D 评分)

类别 指标 OpenVINS+Maplab OKVIS2 ORB-SLAM3 (mono-I) Aria SLAM
Short (18 seq) score 26.0 24.2 28.3 90.7
Medium (10 seq) score 21.3 13.6 20.3 78.5
Long (16 seq) score 12.6 3.6 14.2 70.8
Low-light (9 seq) score 16.5 15.4 6.2 84.2
Moving platform (10 seq) score 13.0 4.2 15.7 53.6

核心发现: 学术界最佳方案在 short 分组上仅得 ~28 分(满分 100),而 Aria 商业 SLAM 得 90.7 分。长序列和挑战场景下差距更大。即使 Aria SLAM 在移动平台场景也只有 53.6 分,说明基准未饱和。

受控实验集(ATE RMSE, 米)

所有方法在 Level I(受控运动)上表现良好(如 ORB-SLAM3 仅 0.03–0.43m),但到 Level IV(第一人称运动)时大多严重退化甚至失败,学术方法 ATE 飙升至 10–50m。

消融实验要点

  • 传感器配置消融: 多相机 + IMU 显著优于单目 + IMU,单目更是大幅落后。
  • 在线标定: Aria SLAM 与学术方案的关键差异在于支持时变内参在线优化。长序列中焦距变化达 0.11%,固定工厂标定会导致精度明显下降。
  • 尺度与重力误差: OpenVINS 在 short 序列上尺度误差 6.38%、重力误差 3.79°,而 Aria SLAM 仅 0.15% / 0.18°。
  • 变异性分析: ORB-SLAM3 方差最大,说明其鲁棒性不足。

亮点

  1. 测绘级 GT 获取方式极其巧型: 利用城市公共控制点 + AprilTag 标记的组合,实现了"不影响自然运动 + 厘米精度 + 城市尺度"的完美平衡,比动捕系统扩展性强,比 GNSS 精度高得多。
  2. 从 Level I 到 Level IV 的渐进实验集是一个很聪明的设计,可以精确定位"到底哪种运动复杂度水平开始让系统崩溃"。
  3. 评估全面且公正: 对每种方法都进行了超参调优(甚至与原作者合作),3 次运行取平均,报告标准差,这在 SLAM 基准论文中少见。
  4. 揭示了工业界与学术界的真实差距: Aria SLAM 得分是学术最优方法的 3-4 倍,给出了明确的改进方向(在线标定、鲁棒闭环、移动平台处理)。

局限性 / 可改进方向

  1. 数据来源单一: 仅在苏黎世一个城市录制,城市结构和纹理分布不够多样。
  2. 设备限制: 仅使用 Project Aria 一种设备,灰度 SLAM 相机分辨率 640×480 偏低,两个 SLAM 相机视角重叠极小导致无法支持常规立体配置。
  3. 控制点方法的固有限制: 稀疏评估无法捕捉两个控制点之间的局部轨迹误差;在移动平台段精度有限,无法提供可靠的稠密 GT。
  4. Aria SLAM 闭源: 基准中表现最好的系统不可复现,学术界难以从中学习细节。
  5. 缺少深度学习 SLAM 的全面评估: DPVO/DPV-SLAM 仅做了纯视觉评测,未能与惯性约束结合评测(因其不支持 IMU)。

与相关工作的对比

数据集 传感器平台 环境规模 GT精度 GT来源 第一人称 多挑战场景
EuRoC 无人机 小(室内) cm 动捕 部分
TUM-VI 手持 cm 动捕
4Seasons 车载 dm VI+GNSS 部分
LaMAR 头戴+手持 dm V-SLAM+LiDAR
LaMAria 头戴 大(城市) cm 测绘控制点

LaMAria 是第一个同时覆盖大规模、第一人称、厘米精度、多种挑战场景的 VIO/SLAM 基准。

启发与关联

  • 对 SLAM 研究者: 在线标定、鲁棒回环检测、移动平台处理是最紧迫的三个改进方向。学术方法与商业系统的差距说明工程优化同样重要。
  • 对可穿戴 AR 产品: 数据集直接反映了真实用户场景下的定位挑战,具有实际产品价值。
  • 方法论启发: "测绘控制点 + 视觉标记物"的 GT 获取思路可推广到其他大尺度定位基准的构建。
  • ideas 目录中 跨视角自监督学习 涉及 ego 视角表示学习,本文的设备和数据与之互补——SLAM 提供空间定位,ego 视频理解提供语义,两者的融合是 AR 系统的完整链路。

评分

  • 新颖性: ⭐⭐⭐⭐(控制点 GT 方案原创性强,但 benchmark 论文天然受方法创新限制)
  • 实验充分度: ⭐⭐⭐⭐⭐(8+ 系统、多传感器配置、分级实验、变异性分析、短片段分析一应俱全)
  • 写作质量: ⭐⭐⭐⭐⭐(结构清晰,对 SLAM 和测绘专业知识的融合讲解很好)
  • 价值: ⭐⭐⭐⭐⭐(填补了重要的基准空白,数据集公开,对 SLAM 社区有长期影响力)