Motion-MLLM: Egomotion-Aware Video Representation for Efficient 3D Scene Understanding¶

日期: 2026-03-18
arXiv: 2603.17980
领域: 3D视觉
关键词: 自运动感知, IMU融合, 视频3D理解, 关键帧筛选, 跨模态融合

一句话总结¶

将低成本 IMU 自运动数据作为新模态注入 MLLM，通过级联运动-视觉关键帧筛选和非对称跨模态融合，以 ~4B 参数在 VSI-Bench 上超越 78B 模型，成本效率比 2D/3D 方法分别高 1.40×/1.63×。

研究背景与动机¶

领域现状: 现有 MLLM 的 3D 空间推理分两条路线——3D 输入方法（点云/深度图/BEV）效果好但开销高；2D 视频方法轻量但无法恢复绝对尺度，存在距离和大小歧义。
现有痛点: 3D 方法依赖昂贵传感器或高计算量的 3D 重建；2D 方法从单目几何无法恢复可靠的度量尺度，限制了距离和尺寸推理能力。
核心矛盾: 精确空间推理需要绝对度量信息，但获取 3D 数据代价高昂。存在轻量级的物理运动信号（IMU）被忽视。
核心 idea: 引入 IMU 自运动数据作为新模态——IMU 在手机/机器人/车辆上广泛可用，能提供可靠的度量锚点（绝对位移和旋转），无需昂贵 3D 表示即可让视觉内容锚定在物理轨迹中。

方法详解¶

整体框架¶

输入：同步采集的 2D 视频 + IMU 数据 → 级联关键帧筛选 → 视觉 token + 运动 token → 非对称跨模态融合 → 自运动增强的视觉 token → LLM 推理。

关键设计¶

级联运动-视觉关键帧筛选 (Cascaded Motion-Visual Keyframe Filtering):
- 做什么：从视频序列中高效选择稀疏但有代表性的关键帧
- 核心思路：三阶段级联——Stage 1 运动门控（IMU 积分位移和旋转角是否超阈值，极低开销过滤大量静止帧）→ Stage 2 轻量几何变化检测（SLAM 前端稀疏特征追踪计算视差）→ Stage 3 视觉 token 分析（2D 编码器 + VGGT 提取特征，计算与上一关键帧的余弦距离）
- 设计动机：从低开销到高开销逐级筛选，昂贵的视觉特征提取只用于少量候选帧，大幅降低计算成本
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练
GRU 运动编码器:
- 做什么：将相邻关键帧间的变长 IMU 序列 \(S_i \in \mathbb{R}^{L_i \times 6}\) 压缩为固定维度运动 token
- 核心思路：用 GRU 处理 6 轴 IMU 数据（3 轴加速度 + 3 轴陀螺仪），取最终隐状态作为运动 token \(\mathbf{m}_i\)，编码相邻关键帧间的累积自运动
- 设计动机：GRU 天然处理变长序列，已在惯性导航中验证有效
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练
非对称两层交叉注意力融合 (Asymmetric Cross-Attention Fusion):
- 做什么：将视觉和运动特征融合为自运动增强的视觉表示
- 核心思路：第一层双向交叉注意力——视觉查询运动（获得度量尺度和轨迹信息），运动查询视觉（获得场景语义）；第二层单向——只有视觉查询已吸收视觉上下文的运动 token，形成视觉→运动→视觉的信息通路
- 设计动机：运动 token 作为中介桥接跨帧视觉信息，沿物理轨迹传递空间关系
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练

实验关键数据¶

空间推理 (VSI-Bench)¶

方法	输入	Overall
Qwen2.5-VL-3B	2D	43.9
Spatial-MLLM	2D	50.7
InternVL3-78B	2D	56.3
Motion-MLLM (~4B)	2D+IMU	60.3

3D 场景问答¶

方法	输入	ScanQA CIDEr	SQA3D EM@1
Qwen2.5-VL-3B	2D	47.4	43.4
Spatial-MLLM	2D	68.9	50.2
LLaVA-3D	3D	80.2	54.9
Motion-MLLM	2D+IMU	77.5	54.6

亮点与洞察¶

IMU 作为"免费的几何锚点"：IMU 传感器在几乎所有移动设备上都有，无需额外硬件，但能提供绝对度量——这比深度图/点云获取成本低一个数量级
级联筛选的效率设计：从 IMU 积分（几乎零开销）到 SLAM 视差到完整视觉特征的三级级联，让计算集中在真正有价值的帧上
运动 token 作为跨帧桥梁：非对称融合让运动 token 成为帧间信息交换的中介，可推广到其他需要跨帧推理的场景
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力

局限性 / 可改进方向¶

依赖 IMU 数据同步采集，静态图片场景不适用
当前仅在室内场景（ScanNet）验证，室外开放场景泛化性待测
IMU 积分漂移在长序列中会累积，可能需要 VIO 校正
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐ IMU 作为 MLLM 空间推理的新模态是有价值的新方向
实验充分度: ⭐⭐⭐⭐⭐ 5 个基准全面覆盖，成本效率分析到位
价值: ⭐⭐⭐⭐ 对嵌入式/机器人场景的空间推理有实用指导意义