MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation¶
日期: 2026-03-20
arXiv: 2509.26642
代码: 无
领域: 机器人 / 多模态VLM
关键词: VLA, multisensory, tactile, 3D point cloud, encoder-free alignment
一句话总结¶
提出 MLA,编码器无关的多感官 VLA 模型,通过 token 级对比学习将 2D 图像、3D 点云和触觉信号统一对齐到 LLM 嵌入空间,加上未来多感官状态预测后训练,在真实世界和 RLBench 上分别超越 π₀ +12%/+16%。
研究背景与动机¶
-
领域现状: VLA(Vision-Language-Action)模型在机器人操作中取得进展,但主要依赖 2D 图像,缺乏 3D 几何理解和触觉感知。
-
现有痛点: (a) 仅靠 2D 图像难以进行精确的空间推理(如抓取深度判断);(b) 接触密集型任务(如擦白板、按压)缺少力反馈信号;(c) 模态特定编码器缺乏与 LLM 的对齐,损害推理效率。
-
核心 idea: 去掉独立编码器,用 LLM 本身作为统一感知模块,通过位置引导的 token 级对比学习对齐三种模态,再用未来状态预测让模型学习物理动态。
方法详解¶
关键设计¶
-
编码器无关的多模态对齐:
- 将 3D 点云和触觉信号投射到 2D 平面(利用相机参数),与图像共享空间坐标
- 在 LLM 的第 8 层 Transformer 做 token 级对比学习——同一空间位置的不同模态 token 应相似
- vs 图像级对比:token 级对齐准确率 85% vs 78%(+7%)
-
未来多感官状态预测:
- 训练后阶段:预测关键帧处的未来图像/点云/触觉状态
- 让模型内化语义、几何和交互信息的前向推理能力
- 关键帧预测(70%)优于相邻帧预测(64%)
-
三阶段训练:
- Stage 1: 570K+ 轨迹预训练
- Stage 2: 跨模态对齐的监督微调
- Stage 3: 未来状态预测的后训练
实验关键数据¶
RLBench (10 tasks)¶
| 方法 | Avg SR |
|---|---|
| SpatialVLA | 46% |
| π₀ | 65% |
| MLA | 81% |
真实世界 (15 rollouts/task)¶
| 对比 | 平均提升 |
|---|---|
| vs π₀ (2D VLA) | +12% |
| vs SpatialVLA (3D VLA) | +24% |
泛化测试¶
| 场景 | MLA | π₀ | 退化幅度 |
|---|---|---|---|
| 未见物体 | 53% | 47% | MLA -15% vs π₀ -26% |
| 未见背景 | 40% | 25% | MLA -25% vs π₀ -47% |
关键发现¶
- 触觉对接触密集型任务至关重要——擦白板需要力度调节
- Token 级对齐显著优于简单拼接或图像级对比
- 泛化能力强:域偏移下性能退化远小于基线
亮点与洞察¶
- 编码器无关设计精巧:不增加独立编码器开销,直接复用 LLM 的表征能力
- 触觉整合是真正的差异化——多数 VLA 只考虑视觉,MLA 首次统一视觉+3D+触觉
- 未来状态预测将"感知"升级为"预测性理解"——不只知道当前状态,还能预判下一步
局限性 / 可改进方向¶
- 触觉传感器的部署成本限制了实际推广
- 3D 点云依赖深度相机,计算和标定开销不小
- 仅在桌面操作场景验证,移动机器人/户外场景待扩展
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个统一视觉/3D/触觉的编码器无关 VLA
- 实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实+泛化+消融全面覆盖
- 价值: ⭐⭐⭐⭐⭐ 为多感官机器人操作提供了完整方案