Egocentric Action-aware Inertial Localization in Point Clouds with Vision-Language Guidance¶

元信息¶

会议: ICCV 2025
arXiv: 2505.14346
代码: GitHub
领域: 3D 视觉 / 惯性定位
关键词: 惯性定位, IMU, 点云, 第一人称视角, 多模态对齐, 动作识别

一句话总结¶

EAIL 框架利用头戴式 IMU 信号中的第一人称动作线索，通过层次化多模态对齐（视觉-语言引导）学习动作与环境结构的关联，在 3D 点云中实现精确的惯性定位，同时附带动作识别能力。

研究背景与动机¶

惯性定位（使用 IMU 追踪人类位置）面临两大挑战：

轨迹漂移：IMU 传感器噪声导致测量误差随时间累积，最终造成显著漂移

人类动作复杂性：穿戴式 IMU 不仅捕捉位移运动（走/停），还捕捉不产生位置变化的动作（如做饭时的头部摆动），使 IMU 信号处理更加困难

核心洞察：某些动作与空间环境结构存在强关联（如洗碗发生在水槽旁、弯腰看烤箱发生在烤箱前），这些动作可以作为空间锚点来补偿定位漂移。

现有方法的不足： - 速度累积方法（RoNIN、IMUNet）在长序列中误差急剧增长 - NILoc 直接预测位置但需场景特定训练，缺乏跨场景泛化能力 - 现有数据集和方法主要关注行走场景，忽略了复杂人类动作的多样性

方法详解¶

整体框架¶

EAIL 采用两阶段设计：

Stage 1：短期动作-位置对齐 - 训练 IMU 编码器和点云编码器 - 通过四模态对比学习（图像、文本、IMU、点云）进行对齐 - 利用预训练的视觉-语言模型引导训练 - 图像和文本仅在训练时需要，推理时不需要

Stage 2：序列运动定位 - 冻结 Stage 1 的编码器用于特征提取 - 时间推理模块 + 空间推理模块联合预测轨迹 - 附带位置感知的动作识别模块

关键设计一：四模态对比学习¶

对每个 1 秒时间段，提取同步的四模态输入： - 第一人称图像 \(\mathbf{I}_t\)（CLIP ViT-Base 编码） - 动作描述 \(\mathbf{L}_t\)（CLIP Text Transformer 编码） - IMU 信号 \(\mathbf{M}_t\)（ResNet18-1D 编码，800Hz 采样率） - 局部点云 \(\mathbf{P}_t\)（PointNet++ 编码，1m² 范围）

对比损失：

\[L_{\text{stage1}} = \alpha L_c(\mathbf{F}^I, \mathbf{F}^M) + \beta L_c(\mathbf{F}^I, \mathbf{F}^P) + \theta L_c(\mathbf{F}^L, \mathbf{F}^M) + \delta L_c(\mathbf{F}^L, \mathbf{F}^P) + \gamma L_c(\mathbf{F}^M, \mathbf{F}^P)\]

参数设置：\(\alpha=0.1\)；\(\beta, \theta, \delta, \gamma = 1\)。

关键设计二：时空推理¶

给定 T=10 秒 IMU 序列和全局点云（均匀分为 S=400 段）：

对应热图生成：计算 IMU 特征和点云特征的相似度，高分区域表示运动可能发生的位置
时间推理模块：3D 卷积网络处理热图序列和 IMU 特征，推理时间维度
空间推理模块：扩张 3D 卷积网络推理 2D 空间维度
轨迹预测：形式化为 S 类分类问题，交叉熵损失

\[L_{\text{traj}} = -\sum_{t=1}^{T}\sum_{s=1}^{S} \mathbf{y}_{t,s} \log(\hat{\mathbf{y}}_{t,s})\]

关键设计三：位置感知动作识别¶

利用预测的位置概率作为空间注意力，加权点云特征并与 IMU 特征融合，通过 MLP 映射到动作类别。直觉是：知道人在水槽旁，有助于判断其在洗碗。

\[L_{\text{stage2}} = L_{\text{traj}} + L_{\text{action}}\]

实验关键数据¶

主实验：惯性定位精度¶

方法	类型	Seen 0.2m	Seen 0.4m	Seen 0.6m	Seen RS	Unseen 0.2m	Unseen 0.4m	Unseen 0.6m	Unseen RS
RoNIN	速度累积	4.86	12.77	20.65	/	3.96	9.52	15.65	/
IMUNet	速度累积	3.74	10.15	17.23	/	3.40	9.17	14.63	/
NILoc+	直接预测	17.03	41.31	74.15	88.17	13.32	37.85	69.21	84.08
EAIL (Ours)	直接预测	43.86	70.15	89.60	96.01	26.86	65.97	90.79	89.55

关键提升：0.2m 精度在 Seen 场景从 17.03% 提升到 43.86%（+26.83），Unseen 场景从 13.32% 到 26.86%（+13.54）。

消融实验¶

消融项	Seen 0.2m	Seen 0.6m	Seen RS	Unseen 0.2m	Unseen 0.6m
w/o 视觉-语言引导	39.75	87.56	95.70	20.41	89.83
w/o 动作损失	41.92	87.75	95.51	25.37	89.28
w/o 空间推理	38.68	87.78	95.05	25.03	83.54
w/o 时间推理	41.44	87.96	95.78	26.41	89.13
完整模型	43.86	89.60	96.01	26.86	90.79

动作识别辅助结果¶

方法	Seen top1	Seen top5	Unseen top1	Unseen top5
DeepConvLSTM	15.20	43.27	12.47	36.86
IMU2CLIP	18.96	50.43	12.27	37.04
EAIL (Ours)	21.48	53.62	15.03	43.34

关键发现¶

直接定位远优于速度累积：速度累积方法在 30 秒后误差即超过 EAIL，长序列中漂移严重
轨迹漂移抗性强：EAIL 的定位误差不随时间增长（Fig. 4），而速度累积方法线性增长
视觉-语言引导有效：即使推理时不使用图像和文本，Stage 1 的多模态对齐仍带来显著提升
动作监督反哺定位：显式的动作分类损失帮助模型更好地对齐运动与环境
空间注意力增强动作识别：仅用 IMU 约等于 IMU2CLIP，加入位置感知后 top1 提升 2.5+

亮点与洞察¶

动作即锚点：巧妙利用动作-环境关联作为自然锚点，替代传统的 GPS/WiFi/蓝牙等外部信号
训练-推理模态解耦：训练时借助视觉和语言，推理时仅需 IMU 和点云，兼顾性能和隐私
双输出互惠：定位和动作识别互为受益——预测位置帮助识别动作，动作监督改善定位
热图可解释性：Stage 1 的热图直观展示动作-位置关联（如洗碗→水槽区高亮），Stage 2 热图收敛到单一峰值

局限性¶

要求环境 3D 点云预先可用，不适用于频繁变化的场景
人在长时间静止时（如站着不动），缺乏动作线索导致定位困难
仅验证了头戴式 IMU，其他佩戴位置（腕部、脚踝）需要模型调整
动作识别的 top1 准确率仍较低（21.48%），35 类动作中存在大量歧义

评分¶

⭐⭐⭐⭐ — 问题设定新颖且实用，"动作即锚点"的洞察独到，多模态对齐设计精巧，定位精度提升显著。