Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots¶

会议: NeurIPS 2025 arXiv: 2510.17369 代码: 有（开源数据集和代码）领域: 机器人 / 具身AI 关键词: VLA, soft robot, embodiment transfer, OpenVLA, π0, continuum manipulator

一句话总结¶

首次在柔性连续体机械臂上部署 VLA 模型（OpenVLA-OFT 和 π₀），发现开箱即用的策略因构型不匹配完全失败，但通过针对性微调可弥合刚性-柔性的 embodiment gap，使柔性机器人在操作任务上达到与刚性 UR5 相当的成功率——证明 VLA + 柔性机器人可实现安全的人机交互。

研究背景与动机¶

领域现状：VLA 模型（如 RT-2、OpenVLA、π₀）将感知、语言理解和控制统一在单一多模态策略中，但几乎所有部署都在刚性串联臂上。
现有痛点：(a) 刚性机器人在人类环境中缺乏安全性——碰撞可能致伤；(b) 柔性机器人具有固有安全性（可变形、轻量），但其非线性、欠驱动动力学与 VLA 训练数据中的刚性运动学截然不同；(c) 没有任何 VLA 基准或数据集包含柔性机器人。
核心问题：在刚性臂上训练的 VLA 策略能否迁移到具有完全不同动力学的柔性连续体臂？需要什么样的适配？

方法详解¶

整体框架¶

(1) 设计柔性连续体臂 Embuddy（3 段 TPU 3D 打印，腱驱动）；(2) 定义 3 个代表性操作任务；(3) 用遥控手柄收集小规模示范数据；(4) 微调 OpenVLA-OFT（LoRA）和 π₀（全量）；(5) 在柔性臂和 UR5 上对比评估。

关键设计¶

Embuddy 柔性臂：3 个模块段，每段包含旋转关节 + 柔性连续体段，腱驱动单平面弯曲，总高 1m，重 5kg，固有安全性
3 个任务：简单 pick-and-place（放橙子）、有选择的 pick-and-place（放橙子或牛奶）、近距人机交互（喂棉花糖）
微调策略：OpenVLA-OFT 用 LoRA 微调（7B 参数量大），π₀ 全量微调（3B 参数量小）
首个柔性机器人 VLA 数据集：开源！

实验关键数据¶

任务成功率（10 次试验）¶

模型	平台	Task 1	Task 2	Task 3
OpenVLA-OFT (未微调)	柔性	0%	0%	0%
π₀ (未微调)	柔性	0%	0%	0%
OpenVLA-OFT (微调)	UR5	90%	80%	70%
OpenVLA-OFT (微调)	柔性	90%	80%	60%
π₀ (微调)	柔性	80%	70%	50%

关键发现¶

开箱失败：所有未微调 VLA 在柔性臂上成功率 0%——因弯曲角度限制导致执行卡死
微调弥合差距：微调后柔性臂的 Task 1/2 与 UR5 完全相同（90%/80%）
OpenVLA-OFT > π₀（在柔性臂上）：虽然 π₀ 在刚性臂上泛化更强，但 LoRA 微调的 OpenVLA-OFT 在全新构型上表现更好
控制频率可接受：即使有网络延迟，柔性臂仍可达 25Hz 控制循环

亮点与洞察¶

首次 VLA + 柔性机器人：打开了一个新的研究方向——安全具身 AI
embodiment gap 的量化：0% → 90% 的对比清晰展示了微调的必要性和有效性
安全交互演示：Task 3（喂食）展示了柔性臂在近距人机交互中的独特优势——即使碰撞也不会伤害人

局限性 / 可改进方向¶

任务简单：仅 3 个基础操作任务，复杂操作（如装配、工具使用）未测试
小规模数据和试验：仅 10 次试验不够统计显著
单一柔性臂：仅在 Embuddy 上验证，其他柔性臂平台的泛化性未知
改进方向：(1) 更多任务和柔性平台；(2) 探索 sim-to-real + 柔性体模拟；(3) 利用柔性臂的力感知做安全约束

评分¶

新颖性: ⭐⭐⭐⭐ 首次柔性机器人 + VLA，填补重要空白
实验充分度: ⭐⭐⭐ 任务和试验规模偏小，统计显著性不足
写作质量: ⭐⭐⭐⭐ 简洁清晰，实验设置描述详细
价值: ⭐⭐⭐⭐ 打开了安全具身 AI 的新方向，开源数据集有贡献