Gaze Beyond the Frame: Forecasting Egocentric 3D Visual Span¶
会议: NeurIPS 2025 arXiv: 2511.18470 代码: 有 领域: 3D视觉 关键词: 第一人称视觉, 注视预测, 3D视觉跨度, SLAM, 体素预测
一句话总结¶
提出 EgoSpanLift 方法,将第一人称 2D 注视预测提升到 3D 空间,构建多层级体积视觉跨度表示,结合 3D U-Net 和单向 Transformer 实现对未来 3D 视觉关注区域的预测。
研究背景与动机¶
人们通过持续感知和与环境交互来完成日常活动,而视觉感知是引导人类行为的基础——"先看后做"。现有第一人称理解研究主要关注动作预测和接触式交互,对视觉感知本身的预测探索不足。
现有 2D 注视预测的局限: 1. 动态场景中 2D 注视预测定义不明确:需要同时建模用户的自身运动和注意力,但两者在 3D 空间中才有自然表达 2. 2D 投影丢失信息:注视方向和自身运动本质上指向 3D 空间的特定位置,而非 2D 图像上的任意区域 3. 缺乏超出当前视野的预测能力:用户可能会转头关注当前画面之外的区域
本文提出第一人称 3D 视觉跨度预测这一新问题:预测用户的视觉感知在 3D 环境中的未来关注位置。
方法详解¶
整体框架¶
系统由三部分组成: 1. EgoSpanLift:将 2D 注视从图像平面提升到 3D 场景中的体积区域 2. 预测网络:3D U-Net(空间编码器)+ 单向 Transformer(时序建模)进行未来视觉跨度预测 3. 基准测试:从原始第一人称多传感器数据策划的 364.6K 样本 benchmark
关键设计¶
1. EgoSpanLift — 从 2D 到 3D 的注视提升¶
输入:SLAM 提供的半稠密 3D 关键点 \(\mathcal{P}\)(每点含位置 \(\mathbf{p}_i \in \mathbb{R}^3\)、置信度 \(\sigma_i\)、观测时间 \(t_i\))和定位信息 \(\mathcal{E}\)(SE(3) 变换矩阵 \(\mathbf{E}_t\))。
基于观测的关键点选择:
三重过滤:时间窗口过滤(仅保留最近几秒)、空间过滤(\(D=3.2\)m 立方体内)、统计异常点过滤(保留动态物体如手、移动中的人,同时去除无效点)。
基于注视的关键点分类:将关键点变换到局部坐标系后,用 3D 注视锥判断是否在视觉跨度内:
其中 \(\theta\) 为离心角阈值,\(\mathbf{g}_t\) 为注视方向。
2. 多层级体积区域定位¶
受视觉科学文献启发,定义四个层级视觉跨度:
| 层级 | 离心角 \(\theta\) | 含义 |
|---|---|---|
| 中央凹 (Foveal) | 2° | 传统 2D 注视定位区域 |
| 中心 (Central) | 8° | 补偿半稠密关键点的覆盖不足 |
| 近外周 (Near Peripheral) | 30° | 更广的外周感知范围 |
| 方向 (Orientation) | 55° | 以头部朝向为中心的视野范围 |
将分类后的关键点体素化为 3D 栅格(分辨率 \(R\),边长 \(D\)),计算二值占用:
3. 预测网络¶
自回归编码器: - 输入:\(T_p \times (4+1) \times R \times R \times R\) 的体素网格(4 层级视觉跨度 + 完整场景) - 3D U-Net 编码器压缩空间维度(缩减因子 \(R\)),得到 \(T_p \times C\) 的时序特征 - 附加全局嵌入作为预测头,形成 \((T_p+1) \times C\) 的特征序列 - 单向 Transformer 学习时序依赖,确保信息向最终全局嵌入汇聚
解码器: - 通过 U-Net 解码器对输出嵌入上采样 - 利用编码器中间特征的残差连接 - Sigmoid 输出 \(4 \times R \times R \times R\) 的 0-1 软占用图
损失函数 / 训练策略¶
由于视觉跨度仅占空间极小区域(中央凹 <1%),传统交叉熵难以学习有意义信号。采用 Dice Loss:
多层级联合训练优于单任务训练,尤其对中央凹预测有显著提升。
实验关键数据¶
主实验¶
FoVS-Aria 测试集(日常活动,23.2K 样本):
| 方法 | Orientation IoU | Peripheral IoU | Central IoU | Foveal IoU |
|---|---|---|---|---|
| CSTS + EgoSpanLift | - | 0.457 | 0.234 | 0.139 |
| EgoChoir | 0.496 | 0.430 | 0.261 | 0.199 |
| Ours (full) | 0.584 | 0.489 | 0.351 | 0.284 |
FoVS-EgoExo 测试集(技能活动,341.4K 样本):
| 方法 | Orientation IoU | Peripheral IoU | Central IoU | Foveal IoU |
|---|---|---|---|---|
| CSTS + EgoSpanLift | - | 0.498 | 0.287 | 0.156 |
| EgoChoir | 0.329 | 0.285 | 0.198 | 0.127 |
| Ours (full) | 0.523 | 0.511 | 0.421 | 0.369 |
3D 中央凹定位误差(距离分布):
| 方法 | 最小(cm) | 平均(cm) | 最大(cm) |
|---|---|---|---|
| CSTS | 59.71 | 73.79 | 87.68 |
| Ours | 19.04 | 34.85 | 51.23 |
消融实验¶
| 配置 | Orientation IoU | Central IoU | Foveal IoU |
|---|---|---|---|
| w/o 先前跨度 | 0.342 | 0.107 | 0.059 |
| BCE 损失 | 0.573 | 0.284 | 0.206 |
| 单任务训练 | 0.583 | 0.335 | 0.249 |
| w/o 全局嵌入 | 0.560 | 0.324 | 0.262 |
| 完整模型 | 0.584 | 0.351 | 0.284 |
关键发现¶
- 在所有层级上大幅超越基线,中央凹跨度预测超出 50%+
- 先前视觉跨度信息至关重要——移除后性能暴跌
- 多层级联合训练显著优于单任务,利用了外周与注视之间的相互线索
- 3D 预测回投到 2D 后(无需 2D 专门训练)与 2D 专用方法性能持平
- 推理延迟仅 71.2ms,满足实时要求
亮点与洞察¶
- 定义新问题:首次形式化第一人称 3D 视觉跨度预测任务
- 视觉科学驱动:多层级视觉跨度定义来自严谨的视觉科学分类
- 实用性强:基于 SLAM 关键点(非稠密重建),延迟低(71ms),可用于 AR/VR
- 双向验证:2D→3D 和 3D→2D 都有效,证明 3D 建模的优越性
- 大规模 benchmark:策划了 364.6K 样本的测试平台
局限性 / 可改进方向¶
- 依赖 SLAM 提供的半稠密关键点质量,某些场景关键点不足
- 中央凹跨度绝对 IoU 仍不算高(~0.28-0.37),精细预测仍有空间
- 排除了足球、篮球等大范围动态场景,适用性有限
- 体素化是主要瓶颈(45ms),需优化以用于更受限设备
- 未纳入非视觉感知(听觉、本体感觉),可能丢失重要线索
相关工作与启发¶
- CSTS:当前最优 2D 注视预测方法,多模态对比时空融合
- EgoChoir:从合成几何和运动中预测 3D 交互热点,是最强基线
- Ego-Exo4D / Aria Everyday Activities:数据来源
- 启发:将 2D 任务提升到 3D 是一种通用且有效的策略,可推广到其他第一人称预测任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 定义了全新问题并提出了系统性解决方案
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集(364.6K 样本)、多基线、全面消融、2D 回投验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,视觉科学背景融入自然
- 价值: ⭐⭐⭐⭐ 对 AR/VR 和辅助技术有直接应用价值