QuadFM: Foundational Text-Driven Quadruped Motion Dataset for Generation and Control¶

日期: 2026-03-25
arXiv: 2603.24021
代码: https://github.com/GaoLii/QuadFM (数据集即将开源)
领域: 机器人 / 四足运动生成 / 数据集
关键词: quadruped motion, text-to-motion, motion dataset, reinforcement learning, sim-to-real

一句话总结¶

发布首个大规模四足机器人文本-动作数据集 QuadFM（11784 个动作片段+三层文本标注共 35352 条描述），覆盖运动、交互和情感表达行为，配套 Gen2Control RL 框架联合训练动作生成器和通用运动控制器，在 Unitree Go2 上实现 <500ms 实时文本驱动动作合成。

研究背景与动机¶

领域现状：四足机器人运动控制已从基本步态扩展到 RL 驱动的敏捷运动，但缺乏大规模基础运动资源。人形机器人有 AMASS、HumanML3D 等大数据集，四足领域只有少量 mocap 原语（walk, trot, sit）。
现有痛点：
- 现有四足数据集行为覆盖极窄（主要是基本步态），缺乏交互行为和情感表达
- 语言-动作方法（SayTap, T2QRM）将高层运动生成与底层控制解耦，生成的动作可能运动学合理但动力学不可执行
- 缺乏统一支持文本驱动生成和物理可执行控制的资源
核心矛盾：四足机器人需要丰富多样的行为库 + 语言语义对齐 + 物理可执行性，但这三者目前没有被任何现有数据集同时满足。
核心 idea：构建多源（mocap + 视频生成 + 动画师设计 + 遥操作）的大规模四足动作-语言数据集，配套联合训练生成和控制的统一框架。

方法详解¶

QuadFM 数据集¶

多源动作采集： 1. Motion Capture（真实狗）：高保真 mocap 捕捉基本步态和常见过渡 2. Video-to-Motion（可扩展行为）：用 Qwen2.5VL-72B 生成视频 prompt → Wan 生成犬类动作视频 → 动物姿态估计恢复 SMAL 骨架 3. Artist-Designed（意图驱动/风格化）：专业动画师通过关键帧动画创作意图驱动的交互动作（如跳舞、欢快蹦跳） 4. Teleoperation（机器人原生）：遥控四足机器人直接记录关节信号

机器人可执行动作处理： - 运动学重定向：IK 映射同源关键点到机器人形态 - RL 物理校正：训练 RL imitation policy 在物理仿真器中追踪重定向轨迹，保证动力学可行性 - 自动修剪+专家审核

三层文本标注： - 细粒度动作标签（如"举起右手到头高处前后摇摆三次"） - 上下文交互场景（如"你好吗？"） - 可执行自然语言命令（如"举手"） - 共 35,352 条描述

Gen2Control RL 框架¶

Imitation Pretraining：用 MotionGPT3 初始化文本条件动作生成器，在 VAE 隐空间学习条件扩散模型 \(p_\theta(z|c, s_t)\)
联合训练：
- 动作生成器：采样隐变量 \(z\) → 解码参考动作
- 运动跟踪策略 \(\pi_\phi\)：PPO 训练，奖励包含跟踪误差+能量平滑+稳定性+终止惩罚
- 可执行性反馈：rollout 回报 \(R^{(i)}\) 作为策略梯度信号更新生成器，偏向生成可跟踪的动作
部署：Unitree Go2 + NVIDIA Orin，端到端延迟 <500ms

实验关键数据¶

数据集规模¶

数据集	动作片段	文本描述	行为类型
DogML (之前最大)	~1000	~1000	基本步态为主
QuadFM	11,784	35,352	运动+交互+情感

Gen2Control 效果¶

在相同设置下，用 QuadFM 训练的控制策略在稳定性和跟踪精度上优于之前数据集
真机上 <500ms 端到端延迟实现实时文本驱动动作
仿真和真实世界实验展示多样化、物理合理的动作

关键发现¶

多源数据互补：mocap 提供高保真基础动作，视频生成扩展行为多样性，动画师补充稀有动作，遥操作提供机器人原生数据
联合训练生成+控制解决了解耦方法的 sim-to-real 失败：生成器学会生成物理可追踪的动作
三层文本标注支持不同粒度的语言理解和命令执行

亮点与洞察¶

Video-to-Motion pipeline 用视频生成模型扩展动作数据集的思路有前瞻性：视频生成模型包含丰富的物理世界知识，可以生成难以通过 mocap 获取的动作
Gen2Control 的可执行性反馈确保生成的动作是物理可行的，这对任何 motion generation + control 的联合系统都有参考价值
首个覆盖情感表达行为的四足数据集对开发更有表现力的机器伴侣有意义

局限性 / 可改进方向¶

Video-to-Motion 管线中的姿态估计仍有误差，需要人工审核修正
数据集聚焦单个机器人平台（Unitree Go2），对不同形态的泛化需要验证
文本标注的多样性可能受限于标注者的想象力
未探索与人类交互的动态场景（如跟随/避障+表达性动作的组合）

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模四足动作-语言数据集，多源采集策略有创意
实验充分度: ⭐⭐⭐⭐ 数据集验证+框架验证+真机部署
写作质量: ⭐⭐⭐⭐ 结构清晰，pipeline 描述详细
价值: ⭐⭐⭐⭐⭐ 数据集开源，填补四足领域重要空白，对社区有长期价值