跳转至

HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare

日期: 2026-03-09
arXiv: 2603.08817
代码: GitHub
领域: 机器人
关键词: embodied intelligence, acupoint massage, MLLM, visual grounding, healthcare robotics

一句话总结

构建首个大规模穴位按摩多模态数据集 MedMassage-12K(12190 图像 + 174177 QA 对),提出分层按摩机器人框架 HMR-1——高层用微调的 Qwen-VL 理解语言指令并定位穴位,低层用 RANSAC+IK 规划运动轨迹,在 Franka Panda 上完成真实物理按摩实验。

研究背景与动机

  1. 领域现状: 具身智能在医疗保健领域(物理治疗/康复)有巨大潜力。现有 MLLM(GPT-4o、Qwen-VL-Max)在医学 QA、影像分析等被动任务上表现良好,但在需要主动物理交互的场景(如穴位按摩)中能力不足。

  2. 现有痛点: (a) 标准化评估基准缺失——没有专门的穴位按摩 benchmark;(b) 缺少开源的多模态穴位按摩数据集;(c) 传统目标检测(YOLO/Faster R-CNN)只做静态检测,无法理解复杂语言指令(如 "找到足三里穴并施加中等压力")。

  3. 核心矛盾: 穴位按摩需要同时具备语义理解(自然语言 → 穴位名称/按摩方式)+ 视觉定位(图像 → 穴位坐标)+ 运动控制(坐标 → 机械臂 6-DOF 姿态),现有系统无法端到端完成。

  4. 切入角度: 利用 MLLM 的语言理解和视觉 grounding 能力,分层处理——高层做语义到视觉的映射,低层做视觉到动作的转换。

方法详解

整体框架

文字指令 \(\mathcal{T}\) + RGB-D 图像 → 高层 Grounding 模块(Qwen-VL微调)输出穴位 2D 坐标 → 低层控制模块 用深度图将 2D 映射到 3D,RANSAC 平面拟合获取法向量确定方向,IK 计算关节配置 → 轨迹规划 → 机器人执行按摩。

关键设计

  1. MedMassage-12K 数据集:

    • 做什么:首个大规模穴位按摩多模态数据集
    • 内容:1030 张医学人偶的穴位注释图像,覆盖 60 个不同穴位,含自然/昏暗/明亮多种光照条件
    • 数据增强:通过几何变换(随机裁剪/旋转)扩充到 12190 图像 + 174177 QA 对
    • 设计动机:现有穴位相关数据集几乎为零,这是整个研究的基础
  2. 高层穴位 Grounding 模块(HLGM):

    • 做什么:理解自然语言指令,输出穴位在图像中的 bounding box 坐标
    • 核心思路:使用 Qwen-VL(OpenCLIP ViT-bigG 视觉编码 + 单层交叉注意力适配器 + Qwen-7B 语言模型),冻结视觉编码器,微调适配器和语言模型
    • 输出格式:用特殊 token <box>/</box> 标注归一化坐标 [0, 1000),<ref>/</ref> 关联描述
    • 设计动机:MLLM 天然整合语言理解+视觉感知+推理,比传统检测器更适合理解复杂指令
  3. 低层控制模块(LLCM):

    • 做什么:将 2D 穴位坐标转换为 6-DOF 末端执行器姿态并规划轨迹
    • 核心思路:深度相机获取深度图 → 相机内外参将 2D→3D 点云 → RANSAC 平面拟合求法向量 → "垂直敲击原则"确定方向 → IK 求解关节角 → 多项式拟合路径规划 → 样条插值轨迹平滑
    • 设计动机:按摩需要精确的位置和方向控制,分层设计让高层专注语义、低层专注运动

训练策略

  • 仅微调 Qwen-VL 的适配器和语言模型,视觉编码器冻结
  • 交叉熵损失监督输出
  • 使用 172492 个增强 QA 对训练

实验关键数据

主实验(穴位 Grounding 成功率)

模型 IoU=0.3 IoU=0.5 IoU=0.75
Qwen-VL-Max(零样本) 0.12% 0% 0%
GPT-4o(零样本) 0.59% 0.07% 0%
HMR-1(微调) 87.60% 81.42% 67.77%

消融实验

配置 IoU=0.3 IoU=0.5 IoU=0.75
w/o 数据增强 60.89% 48.96% 35.54%
w/ 数据增强 87.60% 81.42% 67.77%
10% 数据 47.18% 37.45% 26.17%
40% 数据 75.25% 66.83% 53.41%
100% 数据 87.60% 81.42% 67.77%

关键发现

  • 通用 MLLM(GPT-4o/Qwen-VL-Max)在穴位定位上几乎完全失败(~0%),说明这是一个需要专门训练的任务
  • 数据增强贡献巨大:IoU=0.5 下从 48.96% 提升到 81.42%(+32.46%)
  • 数据量增加持续带来提升但边际递减(70%→100% 提升较小)
  • 在真实 Franka Panda 机器人上成功完成了物理按摩实验

亮点与洞察

  • 首个穴位按摩的完整具身智能系统: 从数据集→模型→物理验证全链路,填补了该领域空白
  • MLLM 替代传统检测器的思路: 用 MLLM 理解 "找什么穴位" + "施加什么力度" 的复合指令,传统检测器做不到
  • 分层设计实用: 高层语义理解和低层运动控制解耦,各司其职,模块间接口清晰
  • 数据增强效果惊人: 几何增强使 IoU=0.5 下性能从 49% 提升到 81%,低成本高收益

局限性 / 可改进方向

  • 数据集基于医学人偶而非真人,泛化到真实人体皮肤/体型变化需要重新验证,体表脆肪层/肌肉张力等因素均会影响穴位定位
  • 仅覆盖 60 个穴位,实际中医穴位有 300+ 个,扩展覆盖度是重要方向
  • 低层控制较传统(RANSAC + IK),未利用学习型控制策略如基于扩散模型的轨迹规划
  • 缺少按摩力度/效果的定量评估——目前只评估了定位精度,未评估按摩治疗效果
  • 安全性分析不足——机器人在真人身上操作的安全冗余设计未详细讨论,力控制策略缺失

相关工作与启发

  • vs ManipLLM/OpenVLA: 通用操作框架,未针对医疗场景优化;HMR-1 专注穴位按摩这一垂直领域,数据集和任务定义有针对性
  • vs RT-1/RT-2: 通用机器人动作预测,不涉及精细穴位定位,且无法处理中文穴位名称的语义理解
  • vs 传统姿态估计+穴位检测: Faster R-CNN/YOLO 等两步级联——先检测再分类,误差累积大,且无法理解“找到足三里穴并施加中等压力”这类复合指令
  • vs SC-MLLM: 同为 MLLM+机器人操作框架,但 SC-MLLM 聚焦通用物体操作,未涉及医疗场景的精确定位需求

评分

  • 新颖性: ⭐⭐⭐⭐ 首个 MLLM 驱动的穴位按摩具身系统
  • 实验充分度: ⭐⭐⭐ 有消融和物理实验但评估维度较单一(仅 IoU)
  • 写作质量: ⭐⭐⭐ 结构清晰但部分细节(低层控制)描述较粗
  • 价值: ⭐⭐⭐⭐ 数据集+框架+物理验证对领域有推动作用