Benchmarking Egocentric Visual-Inertial SLAM at City Scale¶

会议: ICCV 2025
arXiv: 2509.26639
代码: lamaria.ethz.ch（数据集与评测平台）
领域: 3D视觉 / SLAM
关键词: Visual-Inertial SLAM, 第一人称视觉, Benchmark, 城市尺度定位, 可穿戴设备

一句话总结¶

提出 LaMAria——首个城市尺度的第一人称多传感器 VIO/SLAM 基准数据集，利用测绘级控制点提供厘米精度的地面真值，系统评估了学术界主流 SLAM 方案在真实第一人称场景下的表现，揭示了现有方法与商业系统之间的巨大差距。

背景与动机¶

随着 AR 眼镜等可穿戴设备的发展，第一人称（egocentric）场景下的精确 6-DoF 定位变得至关重要。然而，现有的 VIO/SLAM 数据集几乎都源自机器人或车辆平台，运动模式受控、规模有限，且地面真值依赖室内动捕系统（覆盖范围小）或 GNSS（精度不足）。第一人称数据有其独特的挑战：运动更加多样和不可控（头部自然摆动、乘坐交通工具）、长时序录制导致相机标定漂移、夜间低光照、室内外过渡曝光变化、动态场景（行人、自身身体遮挡）等。这些挑战在学术基准中几乎没有被覆盖。

核心问题¶

缺少合适的基准: 没有一个数据集同时满足"第一人称采集 + 城市尺度 + 厘米级精度地面真值 + 多传感器 + 多种挑战场景"
现有 SLAM 系统的鲁棒性未知: 学术界顶级方法在受控数据（如 EuRoC）上表现良好，但面对真实第一人称数据时到底会怎样？差距有多大？

方法详解¶

整体框架¶

这是一篇 数据集/基准论文，核心贡献是 LaMAria 数据集的设计与一套可靠的评估方法。整体思路分三步：(1) 用 Project Aria 眼镜在苏黎世城区录制大量第一人称多传感器数据；(2) 借助测绘学的「控制点」方法获得厘米精度的位姿标注；(3) 在该数据集上系统评测 8+ 种主流 VIO/SLAM 方案。

关键设计¶

数据采集——Project Aria 设备: 采用 Meta 的 Project Aria 眼镜形态设备，搭载双灰度全局快门相机（640×480, 20FPS）、一个 RGB 卷帘快门相机（1408×1408, 10FPS）、双 IMU（1kHz / 800Hz）、磁力计、气压计、GNSS、WiFi/蓝牙等。6 个月内在苏黎世市中心录制 63 条序列，覆盖约 1.5km² 范围、50m 高差，平均每条序列 1.5km / 26 分钟，最长 2.87km / 48 分钟。总计超过 22 小时、70+ 公里的轨迹。
厘米精度的稀疏地面真值——控制点对齐: 这是本文最关键的技术创新。作者利用测绘领域的「控制点（Control Points, CPs）」——苏黎世市政维护的 483 个已知精确坐标的地面标记点（水平精度 ~1cm）。在每个控制点上放置 AprilTag 标记物，Aria 设备经过时自动检测。评估时，将 SLAM 输出轨迹中检测到的标记物进行三角化，再通过 Sim(3) 变换与控制点对齐，对齐误差即反映轨迹精度。不同于 EuRoC 等密集动捕地面真值，该方法虽然稀疏但精度极高（交叉验证显示误差比不确定度高 70 倍），且可扩展到城市尺度。
稠密伪地面真值——多传感器联合优化: 为支持细粒度分析，作者还基于 Aria SLAM 初始轨迹，联合优化视觉特征重投影误差、IMU 预积分约束、控制点三角化误差和控制点对齐误差，生成稠密的伪 GT 位姿，位置不确定度中位数约 20cm。
分级实验集: 设计 4 级难度递增的受控实验集——Level I（平台上受控运动）到 Level IV（真实头戴第一人称运动），在学术标准数据集和全挑战数据集之间搭建桥梁，帮助精确定位系统的失败点。

损失函数 / 训练策略¶

（本文为基准数据集论文，无训练策略。）

评分函数设计: 对每个控制点的对齐误差 \(e\) 采用分段线性评分函数 \(s(e)\)：误差 ≤5cm 得 100 分，50cm 处得 75 分，1m 处 60 分，2m 处 40 分，5m 处 20 分，≥10m 得 0 分。还报告 CP@1m（控制点 1m 内的召回率）和 R@5m（与稠密伪 GT 的 5m 位置召回率）。

实验关键数据¶

主要结果（多相机 + IMU 配置，2D 评分）¶

类别	指标	OpenVINS+Maplab	OKVIS2	ORB-SLAM3 (mono-I)	Aria SLAM
Short (18 seq)	score	26.0	24.2	28.3	90.7
Medium (10 seq)	score	21.3	13.6	20.3	78.5
Long (16 seq)	score	12.6	3.6	14.2	70.8
Low-light (9 seq)	score	16.5	15.4	6.2	84.2
Moving platform (10 seq)	score	13.0	4.2	15.7	53.6

核心发现: 学术界最佳方案在 short 分组上仅得 ~28 分（满分 100），而 Aria 商业 SLAM 得 90.7 分。长序列和挑战场景下差距更大。即使 Aria SLAM 在移动平台场景也只有 53.6 分，说明基准未饱和。

受控实验集（ATE RMSE, 米）¶

所有方法在 Level I（受控运动）上表现良好（如 ORB-SLAM3 仅 0.03–0.43m），但到 Level IV（第一人称运动）时大多严重退化甚至失败，学术方法 ATE 飙升至 10–50m。

消融实验要点¶

传感器配置消融: 多相机 + IMU 显著优于单目 + IMU，单目更是大幅落后。
在线标定: Aria SLAM 与学术方案的关键差异在于支持时变内参在线优化。长序列中焦距变化达 0.11%，固定工厂标定会导致精度明显下降。
尺度与重力误差: OpenVINS 在 short 序列上尺度误差 6.38%、重力误差 3.79°，而 Aria SLAM 仅 0.15% / 0.18°。
变异性分析: ORB-SLAM3 方差最大，说明其鲁棒性不足。

亮点¶

测绘级 GT 获取方式极其巧型: 利用城市公共控制点 + AprilTag 标记的组合，实现了"不影响自然运动 + 厘米精度 + 城市尺度"的完美平衡，比动捕系统扩展性强，比 GNSS 精度高得多。
从 Level I 到 Level IV 的渐进实验集是一个很聪明的设计，可以精确定位"到底哪种运动复杂度水平开始让系统崩溃"。
评估全面且公正: 对每种方法都进行了超参调优（甚至与原作者合作），3 次运行取平均，报告标准差，这在 SLAM 基准论文中少见。
揭示了工业界与学术界的真实差距: Aria SLAM 得分是学术最优方法的 3-4 倍，给出了明确的改进方向（在线标定、鲁棒闭环、移动平台处理）。

局限性 / 可改进方向¶

数据来源单一: 仅在苏黎世一个城市录制，城市结构和纹理分布不够多样。
设备限制: 仅使用 Project Aria 一种设备，灰度 SLAM 相机分辨率 640×480 偏低，两个 SLAM 相机视角重叠极小导致无法支持常规立体配置。
控制点方法的固有限制: 稀疏评估无法捕捉两个控制点之间的局部轨迹误差；在移动平台段精度有限，无法提供可靠的稠密 GT。
Aria SLAM 闭源: 基准中表现最好的系统不可复现，学术界难以从中学习细节。
缺少深度学习 SLAM 的全面评估: DPVO/DPV-SLAM 仅做了纯视觉评测，未能与惯性约束结合评测（因其不支持 IMU）。

与相关工作的对比¶

数据集	传感器平台	环境规模	GT精度	GT来源	第一人称	多挑战场景
EuRoC	无人机	小（室内）	cm	动捕	✗	部分
TUM-VI	手持	中	cm	动捕	✗	✗
4Seasons	车载	大	dm	VI+GNSS	✗	部分
LaMAR	头戴+手持	中	dm	V-SLAM+LiDAR	✓	✓
LaMAria	头戴	大（城市）	cm	测绘控制点	✓	✓

LaMAria 是第一个同时覆盖大规模、第一人称、厘米精度、多种挑战场景的 VIO/SLAM 基准。

启发与关联¶

对 SLAM 研究者: 在线标定、鲁棒回环检测、移动平台处理是最紧迫的三个改进方向。学术方法与商业系统的差距说明工程优化同样重要。
对可穿戴 AR 产品: 数据集直接反映了真实用户场景下的定位挑战，具有实际产品价值。
方法论启发: "测绘控制点 + 视觉标记物"的 GT 获取思路可推广到其他大尺度定位基准的构建。
ideas 目录中跨视角自监督学习涉及 ego 视角表示学习，本文的设备和数据与之互补——SLAM 提供空间定位，ego 视频理解提供语义，两者的融合是 AR 系统的完整链路。

评分¶

新颖性: ⭐⭐⭐⭐（控制点 GT 方案原创性强，但 benchmark 论文天然受方法创新限制）
实验充分度: ⭐⭐⭐⭐⭐（8+ 系统、多传感器配置、分级实验、变异性分析、短片段分析一应俱全）
写作质量: ⭐⭐⭐⭐⭐（结构清晰，对 SLAM 和测绘专业知识的融合讲解很好）
价值: ⭐⭐⭐⭐⭐（填补了重要的基准空白，数据集公开，对 SLAM 社区有长期影响力）