跳转至

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation

日期: 2026-03-20
arXiv: 2509.26642
代码: 无
领域: 机器人 / 多模态VLM
关键词: VLA, multisensory, tactile, 3D point cloud, encoder-free alignment

一句话总结

提出 MLA,编码器无关的多感官 VLA 模型,通过 token 级对比学习将 2D 图像、3D 点云和触觉信号统一对齐到 LLM 嵌入空间,加上未来多感官状态预测后训练,在真实世界和 RLBench 上分别超越 π₀ +12%/+16%。

研究背景与动机

  1. 领域现状: VLA(Vision-Language-Action)模型在机器人操作中取得进展,但主要依赖 2D 图像,缺乏 3D 几何理解和触觉感知。

  2. 现有痛点: (a) 仅靠 2D 图像难以进行精确的空间推理(如抓取深度判断);(b) 接触密集型任务(如擦白板、按压)缺少力反馈信号;(c) 模态特定编码器缺乏与 LLM 的对齐,损害推理效率。

  3. 核心 idea: 去掉独立编码器,用 LLM 本身作为统一感知模块,通过位置引导的 token 级对比学习对齐三种模态,再用未来状态预测让模型学习物理动态。

方法详解

关键设计

  1. 编码器无关的多模态对齐:

    • 将 3D 点云和触觉信号投射到 2D 平面(利用相机参数),与图像共享空间坐标
    • 在 LLM 的第 8 层 Transformer 做 token 级对比学习——同一空间位置的不同模态 token 应相似
    • vs 图像级对比:token 级对齐准确率 85% vs 78%(+7%)
  2. 未来多感官状态预测:

    • 训练后阶段:预测关键帧处的未来图像/点云/触觉状态
    • 让模型内化语义、几何和交互信息的前向推理能力
    • 关键帧预测(70%)优于相邻帧预测(64%)
  3. 三阶段训练:

    • Stage 1: 570K+ 轨迹预训练
    • Stage 2: 跨模态对齐的监督微调
    • Stage 3: 未来状态预测的后训练

实验关键数据

RLBench (10 tasks)

方法 Avg SR
SpatialVLA 46%
π₀ 65%
MLA 81%

真实世界 (15 rollouts/task)

对比 平均提升
vs π₀ (2D VLA) +12%
vs SpatialVLA (3D VLA) +24%

泛化测试

场景 MLA π₀ 退化幅度
未见物体 53% 47% MLA -15% vs π₀ -26%
未见背景 40% 25% MLA -25% vs π₀ -47%

关键发现

  • 触觉对接触密集型任务至关重要——擦白板需要力度调节
  • Token 级对齐显著优于简单拼接或图像级对比
  • 泛化能力强:域偏移下性能退化远小于基线

亮点与洞察

  • 编码器无关设计精巧:不增加独立编码器开销,直接复用 LLM 的表征能力
  • 触觉整合是真正的差异化——多数 VLA 只考虑视觉,MLA 首次统一视觉+3D+触觉
  • 未来状态预测将"感知"升级为"预测性理解"——不只知道当前状态,还能预判下一步

局限性 / 可改进方向

  • 触觉传感器的部署成本限制了实际推广
  • 3D 点云依赖深度相机,计算和标定开销不小
  • 仅在桌面操作场景验证,移动机器人/户外场景待扩展

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个统一视觉/3D/触觉的编码器无关 VLA
  • 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实+泛化+消融全面覆盖
  • 价值: ⭐⭐⭐⭐⭐ 为多感官机器人操作提供了完整方案