跳转至

Motion-MLLM: Egomotion-Aware Video Representation for Efficient 3D Scene Understanding

日期: 2026-03-18
arXiv: 2603.17980
领域: 3D视觉
关键词: 自运动感知, IMU融合, 视频3D理解, 关键帧筛选, 跨模态融合

一句话总结

将低成本 IMU 自运动数据作为新模态注入 MLLM,通过级联运动-视觉关键帧筛选和非对称跨模态融合,以 ~4B 参数在 VSI-Bench 上超越 78B 模型,成本效率比 2D/3D 方法分别高 1.40×/1.63×。

研究背景与动机

  1. 领域现状: 现有 MLLM 的 3D 空间推理分两条路线——3D 输入方法(点云/深度图/BEV)效果好但开销高;2D 视频方法轻量但无法恢复绝对尺度,存在距离和大小歧义。

  2. 现有痛点: 3D 方法依赖昂贵传感器或高计算量的 3D 重建;2D 方法从单目几何无法恢复可靠的度量尺度,限制了距离和尺寸推理能力。

  3. 核心矛盾: 精确空间推理需要绝对度量信息,但获取 3D 数据代价高昂。存在轻量级的物理运动信号(IMU)被忽视。

  4. 核心 idea: 引入 IMU 自运动数据作为新模态——IMU 在手机/机器人/车辆上广泛可用,能提供可靠的度量锚点(绝对位移和旋转),无需昂贵 3D 表示即可让视觉内容锚定在物理轨迹中。

方法详解

整体框架

输入:同步采集的 2D 视频 + IMU 数据 → 级联关键帧筛选 → 视觉 token + 运动 token → 非对称跨模态融合 → 自运动增强的视觉 token → LLM 推理。

关键设计

  1. 级联运动-视觉关键帧筛选 (Cascaded Motion-Visual Keyframe Filtering):

    • 做什么:从视频序列中高效选择稀疏但有代表性的关键帧
    • 核心思路:三阶段级联——Stage 1 运动门控(IMU 积分位移和旋转角是否超阈值,极低开销过滤大量静止帧)→ Stage 2 轻量几何变化检测(SLAM 前端稀疏特征追踪计算视差)→ Stage 3 视觉 token 分析(2D 编码器 + VGGT 提取特征,计算与上一关键帧的余弦距离)
    • 设计动机:从低开销到高开销逐级筛选,昂贵的视觉特征提取只用于少量候选帧,大幅降低计算成本
    • 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
  2. GRU 运动编码器:

    • 做什么:将相邻关键帧间的变长 IMU 序列 \(S_i \in \mathbb{R}^{L_i \times 6}\) 压缩为固定维度运动 token
    • 核心思路:用 GRU 处理 6 轴 IMU 数据(3 轴加速度 + 3 轴陀螺仪),取最终隐状态作为运动 token \(\mathbf{m}_i\),编码相邻关键帧间的累积自运动
    • 设计动机:GRU 天然处理变长序列,已在惯性导航中验证有效
    • 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练
  3. 非对称两层交叉注意力融合 (Asymmetric Cross-Attention Fusion):

    • 做什么:将视觉和运动特征融合为自运动增强的视觉表示
    • 核心思路:第一层双向交叉注意力——视觉查询运动(获得度量尺度和轨迹信息),运动查询视觉(获得场景语义);第二层单向——只有视觉查询已吸收视觉上下文的运动 token,形成 视觉→运动→视觉 的信息通路
    • 设计动机:运动 token 作为中介桥接跨帧视觉信息,沿物理轨迹传递空间关系
    • 实现细节:该模块在训练中采用端到端优化,与其他组件联合学习,无需单独预训练

实验关键数据

空间推理 (VSI-Bench)

方法 输入 Overall
Qwen2.5-VL-3B 2D 43.9
Spatial-MLLM 2D 50.7
InternVL3-78B 2D 56.3
Motion-MLLM (~4B) 2D+IMU 60.3

3D 场景问答

方法 输入 ScanQA CIDEr SQA3D EM@1
Qwen2.5-VL-3B 2D 47.4 43.4
Spatial-MLLM 2D 68.9 50.2
LLaVA-3D 3D 80.2 54.9
Motion-MLLM 2D+IMU 77.5 54.6

亮点与洞察

  • IMU 作为"免费的几何锚点":IMU 传感器在几乎所有移动设备上都有,无需额外硬件,但能提供绝对度量——这比深度图/点云获取成本低一个数量级
  • 级联筛选的效率设计:从 IMU 积分(几乎零开销)到 SLAM 视差到完整视觉特征的三级级联,让计算集中在真正有价值的帧上
  • 运动 token 作为跨帧桥梁:非对称融合让运动 token 成为帧间信息交换的中介,可推广到其他需要跨帧推理的场景
  • 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力

局限性 / 可改进方向

  • 依赖 IMU 数据同步采集,静态图片场景不适用
  • 当前仅在室内场景(ScanNet)验证,室外开放场景泛化性待测
  • IMU 积分漂移在长序列中会累积,可能需要 VIO 校正
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐⭐ IMU 作为 MLLM 空间推理的新模态是有价值的新方向
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个基准全面覆盖,成本效率分析到位
  • 价值: ⭐⭐⭐⭐ 对嵌入式/机器人场景的空间推理有实用指导意义