Egocentric Action-aware Inertial Localization in Point Clouds with Vision-Language Guidance¶
元信息¶
- 会议: ICCV 2025
- arXiv: 2505.14346
- 代码: GitHub
- 领域: 3D 视觉 / 惯性定位
- 关键词: 惯性定位, IMU, 点云, 第一人称视角, 多模态对齐, 动作识别
一句话总结¶
EAIL 框架利用头戴式 IMU 信号中的第一人称动作线索,通过层次化多模态对齐(视觉-语言引导)学习动作与环境结构的关联,在 3D 点云中实现精确的惯性定位,同时附带动作识别能力。
研究背景与动机¶
惯性定位(使用 IMU 追踪人类位置)面临两大挑战:
轨迹漂移:IMU 传感器噪声导致测量误差随时间累积,最终造成显著漂移
人类动作复杂性:穿戴式 IMU 不仅捕捉位移运动(走/停),还捕捉不产生位置变化的动作(如做饭时的头部摆动),使 IMU 信号处理更加困难
核心洞察:某些动作与空间环境结构存在强关联(如洗碗发生在水槽旁、弯腰看烤箱发生在烤箱前),这些动作可以作为空间锚点来补偿定位漂移。
现有方法的不足: - 速度累积方法(RoNIN、IMUNet)在长序列中误差急剧增长 - NILoc 直接预测位置但需场景特定训练,缺乏跨场景泛化能力 - 现有数据集和方法主要关注行走场景,忽略了复杂人类动作的多样性
方法详解¶
整体框架¶
EAIL 采用两阶段设计:
Stage 1:短期动作-位置对齐 - 训练 IMU 编码器和点云编码器 - 通过四模态对比学习(图像、文本、IMU、点云)进行对齐 - 利用预训练的视觉-语言模型引导训练 - 图像和文本仅在训练时需要,推理时不需要
Stage 2:序列运动定位 - 冻结 Stage 1 的编码器用于特征提取 - 时间推理模块 + 空间推理模块联合预测轨迹 - 附带位置感知的动作识别模块
关键设计一:四模态对比学习¶
对每个 1 秒时间段,提取同步的四模态输入: - 第一人称图像 \(\mathbf{I}_t\)(CLIP ViT-Base 编码) - 动作描述 \(\mathbf{L}_t\)(CLIP Text Transformer 编码) - IMU 信号 \(\mathbf{M}_t\)(ResNet18-1D 编码,800Hz 采样率) - 局部点云 \(\mathbf{P}_t\)(PointNet++ 编码,1m² 范围)
对比损失:
参数设置:\(\alpha=0.1\);\(\beta, \theta, \delta, \gamma = 1\)。
关键设计二:时空推理¶
给定 T=10 秒 IMU 序列和全局点云(均匀分为 S=400 段):
- 对应热图生成:计算 IMU 特征和点云特征的相似度,高分区域表示运动可能发生的位置
- 时间推理模块:3D 卷积网络处理热图序列和 IMU 特征,推理时间维度
- 空间推理模块:扩张 3D 卷积网络推理 2D 空间维度
- 轨迹预测:形式化为 S 类分类问题,交叉熵损失
关键设计三:位置感知动作识别¶
利用预测的位置概率作为空间注意力,加权点云特征并与 IMU 特征融合,通过 MLP 映射到动作类别。直觉是:知道人在水槽旁,有助于判断其在洗碗。
实验关键数据¶
主实验:惯性定位精度¶
| 方法 | 类型 | Seen 0.2m | Seen 0.4m | Seen 0.6m | Seen RS | Unseen 0.2m | Unseen 0.4m | Unseen 0.6m | Unseen RS |
|---|---|---|---|---|---|---|---|---|---|
| RoNIN | 速度累积 | 4.86 | 12.77 | 20.65 | / | 3.96 | 9.52 | 15.65 | / |
| IMUNet | 速度累积 | 3.74 | 10.15 | 17.23 | / | 3.40 | 9.17 | 14.63 | / |
| NILoc+ | 直接预测 | 17.03 | 41.31 | 74.15 | 88.17 | 13.32 | 37.85 | 69.21 | 84.08 |
| EAIL (Ours) | 直接预测 | 43.86 | 70.15 | 89.60 | 96.01 | 26.86 | 65.97 | 90.79 | 89.55 |
关键提升:0.2m 精度在 Seen 场景从 17.03% 提升到 43.86%(+26.83),Unseen 场景从 13.32% 到 26.86%(+13.54)。
消融实验¶
| 消融项 | Seen 0.2m | Seen 0.6m | Seen RS | Unseen 0.2m | Unseen 0.6m |
|---|---|---|---|---|---|
| w/o 视觉-语言引导 | 39.75 | 87.56 | 95.70 | 20.41 | 89.83 |
| w/o 动作损失 | 41.92 | 87.75 | 95.51 | 25.37 | 89.28 |
| w/o 空间推理 | 38.68 | 87.78 | 95.05 | 25.03 | 83.54 |
| w/o 时间推理 | 41.44 | 87.96 | 95.78 | 26.41 | 89.13 |
| 完整模型 | 43.86 | 89.60 | 96.01 | 26.86 | 90.79 |
动作识别辅助结果¶
| 方法 | Seen top1 | Seen top5 | Unseen top1 | Unseen top5 |
|---|---|---|---|---|
| DeepConvLSTM | 15.20 | 43.27 | 12.47 | 36.86 |
| IMU2CLIP | 18.96 | 50.43 | 12.27 | 37.04 |
| EAIL (Ours) | 21.48 | 53.62 | 15.03 | 43.34 |
关键发现¶
- 直接定位远优于速度累积:速度累积方法在 30 秒后误差即超过 EAIL,长序列中漂移严重
- 轨迹漂移抗性强:EAIL 的定位误差不随时间增长(Fig. 4),而速度累积方法线性增长
- 视觉-语言引导有效:即使推理时不使用图像和文本,Stage 1 的多模态对齐仍带来显著提升
- 动作监督反哺定位:显式的动作分类损失帮助模型更好地对齐运动与环境
- 空间注意力增强动作识别:仅用 IMU 约等于 IMU2CLIP,加入位置感知后 top1 提升 2.5+
亮点与洞察¶
- 动作即锚点:巧妙利用动作-环境关联作为自然锚点,替代传统的 GPS/WiFi/蓝牙等外部信号
- 训练-推理模态解耦:训练时借助视觉和语言,推理时仅需 IMU 和点云,兼顾性能和隐私
- 双输出互惠:定位和动作识别互为受益——预测位置帮助识别动作,动作监督改善定位
- 热图可解释性:Stage 1 的热图直观展示动作-位置关联(如洗碗→水槽区高亮),Stage 2 热图收敛到单一峰值
局限性¶
- 要求环境 3D 点云预先可用,不适用于频繁变化的场景
- 人在长时间静止时(如站着不动),缺乏动作线索导致定位困难
- 仅验证了头戴式 IMU,其他佩戴位置(腕部、脚踝)需要模型调整
- 动作识别的 top1 准确率仍较低(21.48%),35 类动作中存在大量歧义
相关工作与启发¶
- RoNIN:学习从 IMU 预测速度的经典方法,速度累积导致漂移
- NILoc:直接预测位置但需场景特定训练,本文通过引入点云实现跨场景泛化
- IMU2CLIP:使用 CLIP 引导 IMU 特征学习,本文进一步引入点云和定位任务
- EgoExo4D:提供了丰富的第一人称多模态数据,包括 564 小时烹饪活动
评分¶
⭐⭐⭐⭐ — 问题设定新颖且实用,"动作即锚点"的洞察独到,多模态对齐设计精巧,定位精度提升显著。
相关论文¶
- [ICCV 2025] PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes
- [ICCV 2025] Efficient Spiking Point Mamba for Point Cloud Analysis
- [CVPR 2025] Multi-View Pose-Agnostic Change Localization with Zero Labels
- [CVPR 2025] DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction
- [ICCV 2025] Unleashing Vecset Diffusion Model for Fast Shape Generation (FlashVDM)