Motion-MLLM: Egomotion-Aware Video Representation for Efficient 3D Scene Understanding¶
日期: 2026-03-18
arXiv: 2603.17980
领域: 3D视觉
关键词: 自运动感知, IMU融合, 视频3D理解, 关键帧筛选, 跨模态融合
一句话总结¶
将低成本 IMU 自运动数据作为新模态注入 MLLM,通过级联运动-视觉关键帧筛选和非对称跨模态融合,以 ~4B 参数在 VSI-Bench 上超越 78B 模型,成本效率比 2D/3D 方法分别高 1.40×/1.63×。
研究背景与动机¶
-
领域现状: 现有 MLLM 的 3D 空间推理分两条路线——3D 输入方法(点云/深度图/BEV)效果好但开销高;2D 视频方法轻量但无法恢复绝对尺度,存在距离和大小歧义。
-
现有痛点: 3D 方法依赖昂贵传感器或高计算量的 3D 重建;2D 方法从单目几何无法恢复可靠的度量尺度,限制了距离和尺寸推理能力。
-
核心矛盾: 精确空间推理需要绝对度量信息,但获取 3D 数据代价高昂。存在轻量级的物理运动信号(IMU)被忽视。
-
核心 idea: 引入 IMU 自运动数据作为新模态——IMU 在手机/机器人/车辆上广泛可用,能提供可靠的度量锚点(绝对位移和旋转),无需昂贵 3D 表示即可让视觉内容锚定在物理轨迹中。
方法详解¶
整体框架¶
输入:同步采集的 2D 视频 + IMU 数据 → 级联关键帧筛选 → 视觉 token + 运动 token → 非对称跨模态融合 → 自运动增强的视觉 token → LLM 推理。
关键设计¶
-
级联运动-视觉关键帧筛选 (Cascaded Motion-Visual Keyframe Filtering):
- 做什么:从视频序列中高效选择稀疏但有代表性的关键帧
- 核心思路:三阶段级联——Stage 1 运动门控(IMU 积分位移和旋转角是否超阈值,极低开销过滤大量静止帧)→ Stage 2 轻量几何变化检测(SLAM 前端稀疏特征追踪计算视差)→ Stage 3 视觉 token 分析(2D 编码器 + VGGT 提取特征,计算与上一关键帧的余弦距离)
- 设计动机:从低开销到高开销逐级筛选,昂贵的视觉特征提取只用于少量候选帧,大幅降低计算成本
- 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
-
GRU 运动编码器:
- 做什么:将相邻关键帧间的变长 IMU 序列 \(S_i \in \mathbb{R}^{L_i \times 6}\) 压缩为固定维度运动 token
- 核心思路:用 GRU 处理 6 轴 IMU 数据(3 轴加速度 + 3 轴陀螺仪),取最终隐状态作为运动 token \(\mathbf{m}_i\),编码相邻关键帧间的累积自运动
- 设计动机:GRU 天然处理变长序列,已在惯性导航中验证有效
- 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
-
非对称两层交叉注意力融合 (Asymmetric Cross-Attention Fusion):
- 做什么:将视觉和运动特征融合为自运动增强的视觉表示
- 核心思路:第一层双向交叉注意力——视觉查询运动(获得度量尺度和轨迹信息),运动查询视觉(获得场景语义);第二层单向——只有视觉查询已吸收视觉上下文的运动 token,形成 视觉→运动→视觉 的信息通路
- 设计动机:运动 token 作为中介桥接跨帧视觉信息,沿物理轨迹传递空间关系
- 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
实验关键数据¶
空间推理 (VSI-Bench)¶
| 方法 | 输入 | Overall |
|---|---|---|
| Qwen2.5-VL-3B | 2D | 43.9 |
| Spatial-MLLM | 2D | 50.7 |
| InternVL3-78B | 2D | 56.3 |
| Motion-MLLM (~4B) | 2D+IMU | 60.3 |
3D 场景问答¶
| 方法 | 输入 | ScanQA CIDEr | SQA3D EM@1 |
|---|---|---|---|
| Qwen2.5-VL-3B | 2D | 47.4 | 43.4 |
| Spatial-MLLM | 2D | 68.9 | 50.2 |
| LLaVA-3D | 3D | 80.2 | 54.9 |
| Motion-MLLM | 2D+IMU | 77.5 | 54.6 |
亮点与洞察¶
- IMU 作为"免费的几何锚点":IMU 传感器在几乎所有移动设备上都有,无需额外硬件,但能提供绝对度量——这比深度图/点云获取成本低一个数量级
- 级联筛选的效率设计:从 IMU 积分(几乎零开销)到 SLAM 视差到完整视觉特征的三级级联,让计算集中在真正有价值的帧上
- 运动 token 作为跨帧桥梁:非对称融合让运动 token 成为帧间信息交换的中介,可推广到其他需要跨帧推理的场景
- 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
局限性 / 可改进方向¶
- 依赖 IMU 数据同步采集,静态图片场景不适用
- 当前仅在室内场景(ScanNet)验证,室外开放场景泛化性待测
- IMU 积分漂移在长序列中会累积,可能需要 VIO 校正
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ IMU 作为 MLLM 空间推理的新模态是有价值的新方向
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个基准全面覆盖,成本效率分析到位
- 价值: ⭐⭐⭐⭐ 对嵌入式/机器人场景的空间推理有实用指导意义