跳转至

LookOut: Real-World Humanoid Egocentric Navigation

会议: ICCV 2025
arXiv: 2508.14466
代码: https://sites.google.com/stanford.edu/lookout (项目主页)
领域: 自动驾驶 / 具身导航
关键词: 自我中心导航, 6D头部姿态预测, BEV特征, DINO反投影, 人形机器人

一句话总结

LookOut 提出从第一人称带位姿视频中预测未来 4.5 秒内的 6D 头部姿态序列(平移 + 旋转),通过将 DINOv2 特征反投影到 3D 空间再压缩为 BEV 表示来理解场景几何与语义,在自采集的 4 小时真实世界动态场景数据集上学习到等待、绕行、过马路前左右张望等类人导航行为。

研究背景与动机

领域现状:自我中心导航(egocentric navigation)近年受到广泛关注,涵盖 VLN(视觉语言导航)、机器人社交导航、人体运动预测等方向。VLN 侧重目标定位和长期路径规划,通常在静态模拟环境中工作;机器人社交导航面向轮式/足式机器人,动作和观测空间与人形差异巨大。

现有痛点:(1) 缺乏动态环境下的人形导航方法——现有自我中心导航工作如 EgoNav 和 EgoCast 假设环境是静态的,无法处理行人、车辆等动态障碍;(2) 忽略了头部转动这一关键导航行为——人类在过马路前会左右张望、下台阶时会低头看路面,这种"主动信息采集"行为对安全导航至关重要,但现有方法仅预测位移轨迹而不建模头部旋转;(3) 缺乏规模化的数据采集方式——部署真实人形机器人采数据成本极高,传统传感器套件笨重且引人注目。

核心矛盾:安全的类人导航需要同时理解静态环境几何、动态障碍运动和主动信息采集策略,但现有方法通常只关注其中一个方面。

本文目标 三个子问题:(1) 在动态环境中预测无碰撞的未来轨迹;(2) 建模头部旋转以学习主动信息采集行为;(3) 设计低成本数据采集管线支持规模化训练数据收集。

切入角度:用 Project Aria 眼镜(轻量、低调、易部署)采集真实导航数据,将问题形式化为"从带位姿的自我中心视频预测未来 6D 头部姿态序列"。

核心 idea:将 DINO 语义特征反投影到 3D 体素空间并时序聚合为 BEV 表示,统一解决动态避障和主动信息采集行为的预测。

方法详解

整体框架

输入:过去 \(T_1=8\) 帧带位姿的自我中心 RGB 视频(约 2.1 秒)。输出:未来 \(T_2=8\) 帧的 6D 头部姿态(平移 \(\mathbf{t} \in \mathbb{R}^3\) + 6D 连续旋转表示 \(\mathbf{r} \in \mathbb{R}^6\),共 4.5 秒)。

Pipeline 分为四步:(1) DINO 特征编码 → (2) 无参数反投影到 3D → (3) BEV 投影 → (4) BEV Net + MLP 预测轨迹。

关键设计

  1. DINO 特征编码 + 无参数 3D 反投影:

    • 功能:从每帧 RGB 提取语义特征,并利用相机位姿将 2D 特征"搬"到 3D 体素空间
    • 核心思路:使用预训练 DINOv2 (ViT-S/14) 将每帧下采样为 \(224 \times 224\) 后提取 \(16 \times 16 \times 384\) 的特征图。然后在以当前头部为中心的标准坐标系中定义 \(96 \times 32 \times 96\) 的体素网格,将每个 3D 体素投影到各帧像素空间做双线性插值获取 DINO 特征,再对所有时间步做平均池化聚合。这一"无参数反投影"(Parameter-Free Unprojection)不需要深度传感器,仅利用已知位姿和 2D 特征即可构建 3D 理解
    • 设计动机:DINO 拥有强大的开放词汇语义编码能力,能识别行人、车辆等动态障碍;将其提升到 3D 空间则赋予模型显式的几何推理能力。这种设计避免了依赖 LiDAR 或深度传感器
  2. BEV 投影与 BEV Net:

    • 功能:将 3D 特征体压缩为 2D 鸟瞰图特征,高效地进行空间推理
    • 核心思路:沿垂直轴(Y 轴)将 3D 特征体 \(\mathcal{F}_{3D} \in \mathbb{R}^{96 \times 32 \times 96 \times 384}\) 通过 MLP 压缩为 BEV 特征图 \(\mathcal{F}_{BEV} \in \mathbb{R}^{96 \times 96 \times 384}\)。随后经过 11 个 BEV 模块(2D 卷积 + LayerNorm + MLP + GELU),逐步升维至 1540 并减小空间分辨率至 \(3 \times 3\)。最后全局平均池化 + 3 层 MLP 输出预测
    • 设计动机:直接在 3D 空间做卷积计算成本高且效果相当(消融实验验证),BEV 压缩在保留水平方向几何信息的同时大幅降低计算量。这一设计借鉴了 SimpleBEV 等自动驾驶感知方法
  3. 头部中心标准坐标系(Head-Centered Canonical Frame):

    • 功能:定义以当前头部为原点、朝向正前方且平行于地面的坐标系
    • 核心思路:所有 3D 特征和预测目标都在以 \(\mathbf{h}_{T_1}\) 为中心的局部坐标系中表达,模型输出的是相对位姿变化而非绝对世界坐标
    • 设计动机:消除绝对位置/朝向的影响,让模型学习通用的导航策略而非记忆特定场景的绝对布局

损失函数 / 训练策略

使用平移和旋转的 L1 损失联合监督:

\(\mathcal{L} = \frac{1}{T_2} \sum_{t=T_1+1}^{T_1+T_2} \lambda_{trans} \|\mathbf{t}_t - \hat{\mathbf{t}}_t\|_1 + \lambda_{rot} \|\mathbf{R}_t \hat{\mathbf{R}}_t - \mathbf{I}\|_1\)

其中旋转使用 6D 连续旋转表示转换为旋转矩阵后计算误差,\(\lambda_{trans} = \lambda_{rot} = 1\)。训练使用 AdamW 优化器(weight decay 0.05),OneCycle 学习率调度,batch size 4,总训练 700k 步(约 4 天一张 A6000)。

实验关键数据

主实验

在 Aria Navigation Dataset(AND)的 held-out 环境上测试,指标包括轨迹预测误差和碰撞安全性。

方法 L1_trans ↓ L1_rot ↓ Col_stt_avg ↑ Col_dyn_avg ↑
Constant Velocity 0.41 0.77 79.9 81.9
Linear Extrapolation 0.45 1.21 79.1 82.4
EgoCast 0.34 0.63 84.2 86.2
LookOut (Ours) 0.17 0.16 85.6 90.2
GT (上界) 0 0 88.4 91.9

LookOut 在轨迹预测精度上以 2 倍优势领先 EgoCast(L1_trans 0.17 vs 0.34),旋转预测精度提升近 4 倍(0.16 vs 0.63)。

消融实验

配置 L1_trans ↓ L1_rot ↓ Col_stt_avg ↑ Col_dyn_avg ↑
完整模型 (RGB) 0.17 0.16 85.6 90.2
w/o DINO(用原始 RGB) 0.35 0.67 84.5 85.3
2D Only(无 3D 反投影) 0.26 0.44 84.9 86.2
3D Conv(无 BEV 压缩) 0.17 0.19 85.6 89.9
RGB + 点云 0.17 0.14 87.8 90.1
RGB + 深度 0.15 0.13 87.4 91.4

关键发现

  • DINO 特征是性能基石:去掉 DINO 直接用 RGB 反投影,L1_trans 从 0.17 恶化到 0.35(+106%),证明预训练语义特征对场景理解至关重要
  • 3D 空间推理显著优于 2D:仅用 2D 时序池化的变体在位移和旋转误差上都明显更差,说明显式 3D 几何表示带来了实质提升
  • BEV 压缩 vs 3D 卷积性能持平:3D Conv 变体精度相当但计算成本更高,验证了 BEV 投影的工程合理性
  • 模型学到了丰富的类人行为:定性分析显示模型学会了等待(无安全通道时原地停留)、绕行(遇到行人时转向)、过马路前左右张望(主动信息采集)等行为

亮点与洞察

  • 6D 头部姿态预测的新任务定义:将"导航"从纯轨迹预测扩展到平移 + 旋转的联合预测,首次建模了头部转动这一关键导航行为。这一形式化对 VR/AR 和人形机器人控制具有直接的适用性
  • "无参数反投影"策略的精妙之处:不需要任何可学习参数就能实现 2D→3D 的特征提升,完全依靠已知位姿和双线性插值。这种设计简单高效,避免了深度估计的额外误差传播
  • 低成本数据采集范式:仅用一副 Aria 眼镜即可采集含 6D 位姿、点云、眼动追踪的多模态数据,几秒钟完成设置。这种范式可迁移到其他需要大规模人类行为数据的研究领域

局限与展望

  • 缺乏生成式建模:模型使用回归损失,当未来存在多种合理路径(如左绕/右绕)时会回归到均值,导致预测路径可能穿越障碍。引入扩散模型等生成式方法建模多模态未来是关键改进方向
  • 训练数据规模有限:4 小时数据覆盖 18 个场景,多样性仍不足(如未包含栏杆、楼梯等障碍),导致模型在未见场景类型上泛化受限
  • 仅使用单目 RGB:虽然消融显示深度/点云能进一步提升碰撞安全性,当前模型未利用这些模态。融合深度信息是直接的提升路径
  • 实时性未充分讨论:论文未报告推理延迟,对于实际人形机器人部署,BEV Net 的 11 层卷积和 3D 特征聚合的时延需要验证

相关工作与启发

  • vs EgoCast: EgoCast 预测全身姿态但假设静态环境,且不建模主动信息采集。LookOut 简化为头部姿态预测但在真实动态环境中工作,且显式学习头部旋转行为
  • vs EgoNav: EgoNav 用扩散模型预测轨迹(仅平移),输入需要 RGBD 胸部相机。LookOut 仅用单目 RGB 头戴相机,且同时预测旋转
  • vs SimpleBEV: LookOut 的"反投影 → BEV"策略直接继承自 SimpleBEV 的自动驾驶感知范式,证明了 BEV 相关方法从车辆视角到人类第一人称视角的可迁移性

评分

  • 新颖性: ⭐⭐⭐⭐ 新任务定义(6D头部姿态预测)和数据采集范式具有开创性
  • 实验充分度: ⭐⭐⭐⭐ 基线对比、消融、定性分析全面,但缺少与更多方法的比较
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,问题动机阐述到位,图示丰富直观
  • 价值: ⭐⭐⭐⭐ 任务定义和数据集对具身智能社区有重要推动作用

相关论文