HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare¶
日期: 2026-03-09
arXiv: 2603.08817
代码: GitHub
领域: 机器人
关键词: embodied intelligence, acupoint massage, MLLM, visual grounding, healthcare robotics
一句话总结¶
构建首个大规模穴位按摩多模态数据集 MedMassage-12K(12190 图像 + 174177 QA 对),提出分层按摩机器人框架 HMR-1——高层用微调的 Qwen-VL 理解语言指令并定位穴位,低层用 RANSAC+IK 规划运动轨迹,在 Franka Panda 上完成真实物理按摩实验。
研究背景与动机¶
-
领域现状: 具身智能在医疗保健领域(物理治疗/康复)有巨大潜力。现有 MLLM(GPT-4o、Qwen-VL-Max)在医学 QA、影像分析等被动任务上表现良好,但在需要主动物理交互的场景(如穴位按摩)中能力不足。
-
现有痛点: (a) 标准化评估基准缺失——没有专门的穴位按摩 benchmark;(b) 缺少开源的多模态穴位按摩数据集;(c) 传统目标检测(YOLO/Faster R-CNN)只做静态检测,无法理解复杂语言指令(如 "找到足三里穴并施加中等压力")。
-
核心矛盾: 穴位按摩需要同时具备语义理解(自然语言 → 穴位名称/按摩方式)+ 视觉定位(图像 → 穴位坐标)+ 运动控制(坐标 → 机械臂 6-DOF 姿态),现有系统无法端到端完成。
-
切入角度: 利用 MLLM 的语言理解和视觉 grounding 能力,分层处理——高层做语义到视觉的映射,低层做视觉到动作的转换。
方法详解¶
整体框架¶
文字指令 \(\mathcal{T}\) + RGB-D 图像 → 高层 Grounding 模块(Qwen-VL微调)输出穴位 2D 坐标 → 低层控制模块 用深度图将 2D 映射到 3D,RANSAC 平面拟合获取法向量确定方向,IK 计算关节配置 → 轨迹规划 → 机器人执行按摩。
关键设计¶
-
MedMassage-12K 数据集:
- 做什么:首个大规模穴位按摩多模态数据集
- 内容:1030 张医学人偶的穴位注释图像,覆盖 60 个不同穴位,含自然/昏暗/明亮多种光照条件
- 数据增强:通过几何变换(随机裁剪/旋转)扩充到 12190 图像 + 174177 QA 对
- 设计动机:现有穴位相关数据集几乎为零,这是整个研究的基础
-
高层穴位 Grounding 模块(HLGM):
- 做什么:理解自然语言指令,输出穴位在图像中的 bounding box 坐标
- 核心思路:使用 Qwen-VL(OpenCLIP ViT-bigG 视觉编码 + 单层交叉注意力适配器 + Qwen-7B 语言模型),冻结视觉编码器,微调适配器和语言模型
- 输出格式:用特殊 token
<box>/</box>标注归一化坐标 [0, 1000),<ref>/</ref>关联描述 - 设计动机:MLLM 天然整合语言理解+视觉感知+推理,比传统检测器更适合理解复杂指令
-
低层控制模块(LLCM):
- 做什么:将 2D 穴位坐标转换为 6-DOF 末端执行器姿态并规划轨迹
- 核心思路:深度相机获取深度图 → 相机内外参将 2D→3D 点云 → RANSAC 平面拟合求法向量 → "垂直敲击原则"确定方向 → IK 求解关节角 → 多项式拟合路径规划 → 样条插值轨迹平滑
- 设计动机:按摩需要精确的位置和方向控制,分层设计让高层专注语义、低层专注运动
训练策略¶
- 仅微调 Qwen-VL 的适配器和语言模型,视觉编码器冻结
- 交叉熵损失监督输出
- 使用 172492 个增强 QA 对训练
实验关键数据¶
主实验(穴位 Grounding 成功率)¶
| 模型 | IoU=0.3 | IoU=0.5 | IoU=0.75 |
|---|---|---|---|
| Qwen-VL-Max(零样本) | 0.12% | 0% | 0% |
| GPT-4o(零样本) | 0.59% | 0.07% | 0% |
| HMR-1(微调) | 87.60% | 81.42% | 67.77% |
消融实验¶
| 配置 | IoU=0.3 | IoU=0.5 | IoU=0.75 |
|---|---|---|---|
| w/o 数据增强 | 60.89% | 48.96% | 35.54% |
| w/ 数据增强 | 87.60% | 81.42% | 67.77% |
| 10% 数据 | 47.18% | 37.45% | 26.17% |
| 40% 数据 | 75.25% | 66.83% | 53.41% |
| 100% 数据 | 87.60% | 81.42% | 67.77% |
关键发现¶
- 通用 MLLM(GPT-4o/Qwen-VL-Max)在穴位定位上几乎完全失败(~0%),说明这是一个需要专门训练的任务
- 数据增强贡献巨大:IoU=0.5 下从 48.96% 提升到 81.42%(+32.46%)
- 数据量增加持续带来提升但边际递减(70%→100% 提升较小)
- 在真实 Franka Panda 机器人上成功完成了物理按摩实验
亮点与洞察¶
- 首个穴位按摩的完整具身智能系统: 从数据集→模型→物理验证全链路,填补了该领域空白
- MLLM 替代传统检测器的思路: 用 MLLM 理解 "找什么穴位" + "施加什么力度" 的复合指令,传统检测器做不到
- 分层设计实用: 高层语义理解和低层运动控制解耦,各司其职,模块间接口清晰
- 数据增强效果惊人: 几何增强使 IoU=0.5 下性能从 49% 提升到 81%,低成本高收益
局限性 / 可改进方向¶
- 数据集基于医学人偶而非真人,泛化到真实人体皮肤/体型变化需要重新验证,体表脆肪层/肌肉张力等因素均会影响穴位定位
- 仅覆盖 60 个穴位,实际中医穴位有 300+ 个,扩展覆盖度是重要方向
- 低层控制较传统(RANSAC + IK),未利用学习型控制策略如基于扩散模型的轨迹规划
- 缺少按摩力度/效果的定量评估——目前只评估了定位精度,未评估按摩治疗效果
- 安全性分析不足——机器人在真人身上操作的安全冗余设计未详细讨论,力控制策略缺失
相关工作与启发¶
- vs ManipLLM/OpenVLA: 通用操作框架,未针对医疗场景优化;HMR-1 专注穴位按摩这一垂直领域,数据集和任务定义有针对性
- vs RT-1/RT-2: 通用机器人动作预测,不涉及精细穴位定位,且无法处理中文穴位名称的语义理解
- vs 传统姿态估计+穴位检测: Faster R-CNN/YOLO 等两步级联——先检测再分类,误差累积大,且无法理解“找到足三里穴并施加中等压力”这类复合指令
- vs SC-MLLM: 同为 MLLM+机器人操作框架,但 SC-MLLM 聚焦通用物体操作,未涉及医疗场景的精确定位需求
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个 MLLM 驱动的穴位按摩具身系统
- 实验充分度: ⭐⭐⭐ 有消融和物理实验但评估维度较单一(仅 IoU)
- 写作质量: ⭐⭐⭐ 结构清晰但部分细节(低层控制)描述较粗
- 价值: ⭐⭐⭐⭐ 数据集+框架+物理验证对领域有推动作用