跳转至

Daily arXiv

MLA — A Multisensory Language-Act...

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation¶

日期: 2026-03-20
arXiv: 2509.26642
代码: 无
领域: 机器人 / 多模态VLM
关键词: VLA, multisensory, tactile, 3D point cloud, encoder-free alignment

一句话总结¶

提出 MLA，编码器无关的多感官 VLA 模型，通过 token 级对比学习将 2D 图像、3D 点云和触觉信号统一对齐到 LLM 嵌入空间，加上未来多感官状态预测后训练，在真实世界和 RLBench 上分别超越 π₀ +12%/+16%。

研究背景与动机¶

领域现状: VLA（Vision-Language-Action）模型在机器人操作中取得进展，但主要依赖 2D 图像，缺乏 3D 几何理解和触觉感知。
现有痛点: (a) 仅靠 2D 图像难以进行精确的空间推理（如抓取深度判断）；(b) 接触密集型任务（如擦白板、按压）缺少力反馈信号；(c) 模态特定编码器缺乏与 LLM 的对齐，损害推理效率。
核心 idea: 去掉独立编码器，用 LLM 本身作为统一感知模块，通过位置引导的 token 级对比学习对齐三种模态，再用未来状态预测让模型学习物理动态。

方法详解¶

关键设计¶

编码器无关的多模态对齐:
- 将 3D 点云和触觉信号投射到 2D 平面（利用相机参数），与图像共享空间坐标
- 在 LLM 的第 8 层 Transformer 做 token 级对比学习——同一空间位置的不同模态 token 应相似
- vs 图像级对比：token 级对齐准确率 85% vs 78%（+7%）
未来多感官状态预测:
- 训练后阶段：预测关键帧处的未来图像/点云/触觉状态
- 让模型内化语义、几何和交互信息的前向推理能力
- 关键帧预测（70%）优于相邻帧预测（64%）
三阶段训练:
- Stage 1: 570K+ 轨迹预训练
- Stage 2: 跨模态对齐的监督微调
- Stage 3: 未来状态预测的后训练

实验关键数据¶

RLBench (10 tasks)¶

方法	Avg SR
SpatialVLA	46%
π₀	65%
MLA	81%

真实世界 (15 rollouts/task)¶

对比	平均提升
vs π₀ (2D VLA)	+12%
vs SpatialVLA (3D VLA)	+24%

泛化测试¶

场景	MLA	π₀	退化幅度
未见物体	53%	47%	MLA -15% vs π₀ -26%
未见背景	40%	25%	MLA -25% vs π₀ -47%

关键发现¶

触觉对接触密集型任务至关重要——擦白板需要力度调节
Token 级对齐显著优于简单拼接或图像级对比
泛化能力强：域偏移下性能退化远小于基线

亮点与洞察¶

编码器无关设计精巧：不增加独立编码器开销，直接复用 LLM 的表征能力
触觉整合是真正的差异化——多数 VLA 只考虑视觉，MLA 首次统一视觉+3D+触觉
未来状态预测将"感知"升级为"预测性理解"——不只知道当前状态，还能预判下一步

局限性 / 可改进方向¶

触觉传感器的部署成本限制了实际推广
3D 点云依赖深度相机，计算和标定开销不小
仅在桌面操作场景验证，移动机器人/户外场景待扩展

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个统一视觉/3D/触觉的编码器无关 VLA
实验充分度: ⭐⭐⭐⭐⭐ 仿真+真实+泛化+消融全面覆盖
价值: ⭐⭐⭐⭐⭐ 为多感官机器人操作提供了完整方案