LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference¶
会议: CVPR 2026
arXiv: 2603.11605
代码: 有 (项目页)
领域: 人体理解
关键词: 文本驱动动作生成, Labanotation, 符号推理, LLM Agent, 可解释动作合成
一句话总结¶
提出 LabanLite 符号动作表示和 LaMoGen 框架,首次让 LLM 通过可解释的 Laban 符号推理自主组合动作序列,在时序精度和可控性上超越传统文本-动作联合嵌入方法。
研究背景与动机¶
-
领域现状:文本驱动人体动作生成(Text-to-Motion)近年取得显著进展,主流方法依赖文本-动作联合嵌入空间(joint embedding),通过扩散模型或自回归 Transformer 生成动作序列。代表工作包括 MDM、ReMoDiff、MoDiff、CoMo、MotionGPT 等。
-
现有痛点:基于联合嵌入的方法在处理时序精确性和细粒度语义时表现不佳。例如指令 "Walk forward in 5 steps and then walk backward in 3 steps",现有方法往往生成笼统的"步行前进"动作,无法准确反映步数和动作先后顺序。此外,这些方法缺乏可解释性——生成结果是黑盒输出,用户无法理解或编辑中间过程。
-
核心矛盾:语言描述的高层语义结构性(含明确的身体部位、方向、时序、次数)与动作嵌入空间的连续性、不可解释性之间的鸿沟。已有尝试将文本分解为身体部位级 token(如 CoMo 的 Posescript),但这些表示仅编码静态姿态,缺乏对动作过渡过程和时序的表达能力。
-
本文要解决什么:如何建立一个可解释、可编辑的中间符号表示,使得 LLM 能通过符号推理自主组合动作序列,同时保证生成动作在时序、身体部位协调性和语言对齐上的精确性。
-
切入角度:从舞蹈记谱法 Labanotation 体系获得启发——该系统以符号方式编码身体部位、方向、层级、持续时间等运动属性,天然具备可解释性和结构化特征。作者据此设计 LabanLite 作为连接语言与动作的"符号桥梁"。
-
核心idea一句话:将复杂动作分解为 Laban 符号序列,让 LLM 在符号空间中推理和组合动作计划,再由解码器将符号还原为连续动作轨迹。
方法详解¶
整体框架¶
LaMoGen 是一个 Text → LabanLite → Motion 的两阶段生成框架:
- 第一阶段(高层语义规划):LLM 通过检索增强提示(Retrieval-Augmented Prompting)将文本指令转化为概念性 Laban 符号序列
- 第二阶段(底层运动合成):Kinematic Detail Augmentor 自回归地将概念符号补充为完整的 LabanLite 编码,再由 Laban-Motion Decoder 解码为连续动作
框架包含两个核心模块:Laban-Motion Encoder-Decoder(动作↔符号双向转换)和 LLM-Guided Text-Laban-Motion Generation(LLM 驱动的符号组合与动作生成)。
关键设计¶
1. LabanLite 动作表示¶
- 做什么:将传统 Labanotation 改造为适合机器学习和 LLM 推理的帧级符号表示
- 核心思路:对 Labanotation 做三项关键增强:(1) 将符号分为概念性符号(主要运动结构,如方向、层级变化)和细节符号(精细属性,如弯曲角度);(2) 事件级标注改为帧级标注,每帧对应一个 Laban 实例;(3) 每个概念符号配备格式化的概念描述(
<body-part group> <moving semantic> in <time> seconds) - 设计动机:概念/细节分离的设计使 LLM 只需处理高层概念符号(与自然语言对齐度高),而细节由专门的 Augmentor 自动补充。帧级标注提升了与 ML 模型的兼容性。固定格式的概念描述确保符号与文本之间的无歧义转换。
2. Laban Codebook 与编解码¶
- 做什么:建立 Laban 符号的可学习嵌入空间,支持动作与符号的双向转换
- 核心思路:将所有唯一的帧级 Laban 实例分配 Laban code,汇集为 Codebook \(C=\{c_n\}_{n=1}^{N}\)。编码器通过二元指示向量 \(v_t\) 激活对应的 codebook 条目,将其嵌入求和得到帧级 latent \(z_t=\sum_n v_t^n c_n\)。解码器(Transformer 架构)从 latent 重建动作
- 设计动机:与 VQ-VAE 不同,这里用加性组合而非单一 token 选择,能通过线性组合近似连续变化,从简单符号构建复杂动作
3. 自动 Laban 符号检测工作流¶
- 做什么:从连续动作数据中自动提取 Laban 符号序列
- 核心思路:三步流水线——(1) 动态区间分割:将动作帧分类为动态/静止,按原子动作切分;(2) 帧级符号提取:根据末端执行器相对骨盆的 3D 位移计算方向/层级,根据欧拉角计算朝向/弯曲,根据骨盆速度量化运动力度;(3) 区间级符号聚合:为每个时间区间分配代表性符号组合
- 设计动机:为 Conceptual Description Database 和 Laban Benchmark 提供高质量训练数据。离散化规则严格遵循 Labanotation 文献中被专业人士接受的标准阈值
4. LLM 引导的动作概念组合¶
- 做什么:利用 LLM 将用户文本指令转化为概念性 Laban 符号计划
- 核心思路:维护一个概念描述数据库(motion caption → conceptual description 的键值对)。推理时用 CLIP 计算用户查询与数据库 caption 的语义相似度,检索 Top-K 条目作为 in-context examples 提供给 LLM。LLM 推理文本指令与符号动作模式的对应关系,编辑或组合新的概念描述
- 设计动机:RAG 策略让 LLM 无需微调即可理解 Laban 符号体系。概念描述的标准化格式保证 LLM 输出可被无歧义地映射回 Laban 符号
5. 运动学细节增强器(Kinematic Detail Augmentor)¶
- 做什么:将 LLM 输出的概念符号补充为完整的 LabanLite 编码
- 核心思路:以文本 \(m\) 和掩码概念向量 \(\hat{v}_{1:t-1}\) 为条件,自回归预测每帧的完整二元指示向量 \(v_t\),激活 codebook 中的概念和细节属性条目。训练时对概念向量施加随机掩码(masking ratio=0.3 最优)以提升泛化能力
- 设计动机:LLM 擅长高层规划但缺乏时序建模精度,细节符号(朝向、弯曲、力度)需要专门的时序模型来补充。该阶段为符号序列增加约 60% 的信息量
损失函数 / 训练策略¶
- Codebook 训练:联合优化解码器参数 \(\theta\) 和 codebook \(C\),最小化重建损失 \(\mathcal{L}_{rec} = \|X - \hat{X}\|_1 + \lambda\|\dot{X} - \dot{\hat{X}}\|_1\)(姿态 L1 + 速度 L1)
- Augmentor 训练:二元交叉熵损失 \(\mathcal{L}_{gen} = -\sum_{t,n}[v_t^n \log p_t^n + (1-v_t^n)\log(1-p_t^n)]\),预测每帧每个 codebook 条目的激活概率
- End-of-sequence:追加
<EOS>token,codebook 扩展为 \(N+1\) 条目,标记动作终止
实验关键数据¶
主实验¶
表1:Laban Benchmark 上的定量比较(Labanotation-based 指标 + R@3 / FID)
| 方法 | avg.SMT↑ | avg.TMP↑ | avg.HMN↑ | R@3↑ | FID↓ |
|---|---|---|---|---|---|
| MDM | 0.338 | 0.298 | 0.201 | 0.180 | 22.81 |
| ReMoDiff | 0.441 | 0.365 | 0.265 | 0.192 | 7.121 |
| MoDiff | 0.466 | 0.366 | 0.274 | 0.196 | 5.701 |
| CoMo | 0.393 | 0.239 | 0.251 | 0.176 | 21.94 |
| MotionGPT | 0.461 | 0.347 | 0.307 | 0.195 | 2.072 |
| LaMoGen (GPT4.1) | 0.534 | 0.502 | 0.393 | 0.208 | 1.861 |
| LaMoGen (Human) | 0.626 | 0.628 | 0.462 | 0.211 | 1.769 |
表2:HumanML3D 标准 benchmark 上的比较
| 方法 | R@1↑ | R@3↑ | FID↓ | MM-Dist↓ | Diversity→ |
|---|---|---|---|---|---|
| Real data | 0.511 | 0.797 | 0.002 | 2.974 | 9.503 |
| ReMoDiff | 0.510 | 0.795 | 0.103 | 2.974 | 9.018 |
| CoMo | 0.502 | 0.790 | 0.262 | 3.032 | 9.936 |
| MotionGPT | 0.492 | 0.778 | 0.232 | 3.096 | 9.528 |
| LaMoGen (GPT4.1) | 0.491 | 0.796 | 0.252 | 3.087 | 9.124 |
| LaMoGen (Human) | 0.513 | 0.813 | 0.206 | 2.993 | 9.635 |
消融实验¶
LLM 能力影响:更强的 LLM 带来更好的生成质量。GPT-4.1 > DeepSeek-V3 > Qwen3 > GPT-4.1mini > None(无 LLM),体现在 Laban 指标和 FID 上的一致性提升。
检索示例数量:在 HumanML3D 上用 GPT-4.1 测试 Top-K 检索。K=1→3 性能持续提升(LLM 需要足够示例进行模仿);K=5 或 7 无进一步提升(上下文窗口过长导致 LLM 遗忘关键线索)。默认使用 Top-3。
掩码比例:Augmentor 训练中对概念符号的随机掩码比例实验。0.3 为最优平衡点——过低则过度依赖概念线索(泛化差),过高则概念引导信号不足。
Laban 符号检测精度(Table 3):
| 方法 | avg.SMT↑ | avg.TMP↑ | avg.HMN↑ |
|---|---|---|---|
| Ikeuchi et al. | 0.751 | 0.632 | 0.611 |
| Ours | 0.871 | 0.852 | 0.786 |
关键发现¶
- 符号推理显著优于联合嵌入:在 Laban Benchmark 上,LaMoGen (GPT4.1) 的 SMT/TMP/HMN 指标全面超越所有基于联合嵌入的方法,证明符号推理在时序精度和身体部位协调性上的优势
- MotionGPT 在结构化指令理解上的意外表现:虽然在传统 benchmark 上表现一般,但 MotionGPT 在 Laban Benchmark 上超过 CoMo,说明传统指标无法有效区分动作生成方法的真实能力
- FID 的局限性:LaMoGen 的 FID 略逊于部分方法,原因是 LabanLite 的高层抽象对同一语义下的低层变化(如不同人举手速度差异)使用相同符号,这是符号表示固有的表达力限制
- Human composer 上限:使用真实标注的概念符号(Human)比 LLM composer 效果更好,说明 LLM 符号组合能力仍有提升空间
亮点与洞察¶
- 首个 LLM 自主动作生成框架:LaMoGen 是第一个让 LLM 无需微调、通过符号推理自主组合动作的框架,开辟了 Agent-based 动作生成的新范式
- 符号表示的双重优势:LabanLite 既让 LLM 能"理解"动作(通过概念描述),又让人类专家能直接审查和编辑中间结果
- 评测贡献:提出 SMT/TMP/HMN 三个 Laban 指标,填补了现有评测在时序精度和多部位协调性上的空白
- 层次化设计思想:概念/细节分离 + LLM/Augmentor 分工的两阶段架构,是一种优雅的"各司其职"设计
局限性 / 可改进方向¶
- LabanLite 表达力上限:符号的离散化不可避免地丢失低层运动细节,导致 FID 偏高。未来可考虑引入连续属性字段或残差补偿机制
- LLM 依赖:框架性能受 LLM 能力制约(弱 LLM 符号组合质量明显下降),且推理需调用 API,增加延迟和成本
- 数据集局限:Laban Benchmark 以步行类动作为主,对更复杂的全身动作(如舞蹈、体操)的评估覆盖不足
- Laban 符号集固定:为保持专业性限制在传统 Labanotation 符号集,可能限制了对新兴动作类型的描述能力
- 检索依赖:RAG 策略的效果取决于 Conceptual Description Database 的覆盖度,对于训练集未见过的动作模式可能表现受限
相关工作与启发¶
- CoMo (ECCV 2024):用 Posescript 将动作分解为身体部位级 pose code,但仅编码静态姿态缺乏时序表达。LaMoGen 的 Laban 符号同时编码起始/结束姿态和过渡过程,语义更完整
- MotionGPT (NeurIPS 2024):对 LLM 进行微调使其处理动作 token。LaMoGen 不需微调 LLM,而是通过 RAG 让 LLM 在符号空间工作
- KP (Kinematic Phrase):启发式抽象动作信号,但限于低层信号。LabanLite 提供了专业级别的高层抽象
- 启发:符号中间表示 + LLM 推理的范式可推广到其他跨模态生成任务(如音乐→舞蹈、文本→手语),关键在于找到目标模态的结构化符号体系
评分¶
⭐⭐⭐⭐ — 将 Labanotation 引入 LLM 动作生成是一个巧妙且有说服力的创新,符号推理路线为可解释可控动作生成开辟了新方向;Laban Benchmark 的评测贡献也很扎实。但 FID 偏高和 LLM 依赖是需要后续工作解决的实际瓶颈。