HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare¶

日期: 2026-03-09
arXiv: 2603.08817
代码: GitHub
领域: 机器人
关键词: embodied intelligence, acupoint massage, MLLM, visual grounding, healthcare robotics

一句话总结¶

构建首个大规模穴位按摩多模态数据集 MedMassage-12K（12190 图像 + 174177 QA 对），提出分层按摩机器人框架 HMR-1——高层用微调的 Qwen-VL 理解语言指令并定位穴位，低层用 RANSAC+IK 规划运动轨迹，在 Franka Panda 上完成真实物理按摩实验。

研究背景与动机¶

领域现状: 具身智能在医疗保健领域（物理治疗/康复）有巨大潜力。现有 MLLM（GPT-4o、Qwen-VL-Max）在医学 QA、影像分析等被动任务上表现良好，但在需要主动物理交互的场景（如穴位按摩）中能力不足。
现有痛点: (a) 标准化评估基准缺失——没有专门的穴位按摩 benchmark；(b) 缺少开源的多模态穴位按摩数据集；(c) 传统目标检测（YOLO/Faster R-CNN）只做静态检测，无法理解复杂语言指令（如 "找到足三里穴并施加中等压力"）。
核心矛盾: 穴位按摩需要同时具备语义理解（自然语言 → 穴位名称/按摩方式）+ 视觉定位（图像 → 穴位坐标）+ 运动控制（坐标 → 机械臂 6-DOF 姿态），现有系统无法端到端完成。
切入角度: 利用 MLLM 的语言理解和视觉 grounding 能力，分层处理——高层做语义到视觉的映射，低层做视觉到动作的转换。

方法详解¶

整体框架¶

文字指令 \(\mathcal{T}\) + RGB-D 图像 → 高层 Grounding 模块（Qwen-VL微调）输出穴位 2D 坐标 → 低层控制模块 用深度图将 2D 映射到 3D，RANSAC 平面拟合获取法向量确定方向，IK 计算关节配置 → 轨迹规划 → 机器人执行按摩。

关键设计¶

MedMassage-12K 数据集:
- 做什么：首个大规模穴位按摩多模态数据集
- 内容：1030 张医学人偶的穴位注释图像，覆盖 60 个不同穴位，含自然/昏暗/明亮多种光照条件
- 数据增强：通过几何变换（随机裁剪/旋转）扩充到 12190 图像 + 174177 QA 对
- 设计动机：现有穴位相关数据集几乎为零，这是整个研究的基础
高层穴位 Grounding 模块（HLGM）:
- 做什么：理解自然语言指令，输出穴位在图像中的 bounding box 坐标
- 核心思路：使用 Qwen-VL（OpenCLIP ViT-bigG 视觉编码 + 单层交叉注意力适配器 + Qwen-7B 语言模型），冻结视觉编码器，微调适配器和语言模型
- 输出格式：用特殊 token <box>/</box> 标注归一化坐标 [0, 1000)，<ref>/</ref> 关联描述
- 设计动机：MLLM 天然整合语言理解+视觉感知+推理，比传统检测器更适合理解复杂指令
低层控制模块（LLCM）:
- 做什么：将 2D 穴位坐标转换为 6-DOF 末端执行器姿态并规划轨迹
- 核心思路：深度相机获取深度图 → 相机内外参将 2D→3D 点云 → RANSAC 平面拟合求法向量 → "垂直敲击原则"确定方向 → IK 求解关节角 → 多项式拟合路径规划 → 样条插值轨迹平滑
- 设计动机：按摩需要精确的位置和方向控制，分层设计让高层专注语义、低层专注运动

训练策略¶

仅微调 Qwen-VL 的适配器和语言模型，视觉编码器冻结
交叉熵损失监督输出
使用 172492 个增强 QA 对训练

实验关键数据¶

主实验（穴位 Grounding 成功率）¶

模型	IoU=0.3	IoU=0.5	IoU=0.75
Qwen-VL-Max（零样本）	0.12%	0%	0%
GPT-4o（零样本）	0.59%	0.07%	0%
HMR-1（微调）	87.60%	81.42%	67.77%

消融实验¶

配置	IoU=0.3	IoU=0.5	IoU=0.75
w/o 数据增强	60.89%	48.96%	35.54%
w/ 数据增强	87.60%	81.42%	67.77%
10% 数据	47.18%	37.45%	26.17%
40% 数据	75.25%	66.83%	53.41%
100% 数据	87.60%	81.42%	67.77%

关键发现¶

通用 MLLM（GPT-4o/Qwen-VL-Max）在穴位定位上几乎完全失败（~0%），说明这是一个需要专门训练的任务
数据增强贡献巨大：IoU=0.5 下从 48.96% 提升到 81.42%（+32.46%）
数据量增加持续带来提升但边际递减（70%→100% 提升较小）
在真实 Franka Panda 机器人上成功完成了物理按摩实验

亮点与洞察¶

首个穴位按摩的完整具身智能系统: 从数据集→模型→物理验证全链路，填补了该领域空白
MLLM 替代传统检测器的思路: 用 MLLM 理解 "找什么穴位" + "施加什么力度" 的复合指令，传统检测器做不到
分层设计实用: 高层语义理解和低层运动控制解耦，各司其职，模块间接口清晰
数据增强效果惊人: 几何增强使 IoU=0.5 下性能从 49% 提升到 81%，低成本高收益

局限性 / 可改进方向¶

数据集基于医学人偶而非真人，泛化到真实人体皮肤/体型变化需要重新验证，体表脆肪层/肌肉张力等因素均会影响穴位定位
仅覆盖 60 个穴位，实际中医穴位有 300+ 个，扩展覆盖度是重要方向
低层控制较传统（RANSAC + IK），未利用学习型控制策略如基于扩散模型的轨迹规划
缺少按摩力度/效果的定量评估——目前只评估了定位精度，未评估按摩治疗效果
安全性分析不足——机器人在真人身上操作的安全冗余设计未详细讨论，力控制策略缺失

评分¶

新颖性: ⭐⭐⭐⭐ 首个 MLLM 驱动的穴位按摩具身系统
实验充分度: ⭐⭐⭐ 有消融和物理实验但评估维度较单一（仅 IoU）
写作质量: ⭐⭐⭐ 结构清晰但部分细节（低层控制）描述较粗
价值: ⭐⭐⭐⭐ 数据集+框架+物理验证对领域有推动作用