跳转至

LaMoGen: Language to Motion Generation Through LLM-Guided Symbolic Inference

会议: CVPR 2026
arXiv: 2603.11605
代码: 有 (项目页)
领域: 人体理解
关键词: 文本驱动动作生成, Labanotation, 符号推理, LLM Agent, 可解释动作合成

一句话总结

提出 LabanLite 符号动作表示和 LaMoGen 框架,首次让 LLM 通过可解释的 Laban 符号推理自主组合动作序列,在时序精度和可控性上超越传统文本-动作联合嵌入方法。

研究背景与动机

  1. 领域现状:文本驱动人体动作生成(Text-to-Motion)近年取得显著进展,主流方法依赖文本-动作联合嵌入空间(joint embedding),通过扩散模型或自回归 Transformer 生成动作序列。代表工作包括 MDM、ReMoDiff、MoDiff、CoMo、MotionGPT 等。

  2. 现有痛点:基于联合嵌入的方法在处理时序精确性细粒度语义时表现不佳。例如指令 "Walk forward in 5 steps and then walk backward in 3 steps",现有方法往往生成笼统的"步行前进"动作,无法准确反映步数和动作先后顺序。此外,这些方法缺乏可解释性——生成结果是黑盒输出,用户无法理解或编辑中间过程。

  3. 核心矛盾:语言描述的高层语义结构性(含明确的身体部位、方向、时序、次数)与动作嵌入空间的连续性、不可解释性之间的鸿沟。已有尝试将文本分解为身体部位级 token(如 CoMo 的 Posescript),但这些表示仅编码静态姿态,缺乏对动作过渡过程和时序的表达能力。

  4. 本文要解决什么:如何建立一个可解释、可编辑的中间符号表示,使得 LLM 能通过符号推理自主组合动作序列,同时保证生成动作在时序、身体部位协调性和语言对齐上的精确性。

  5. 切入角度:从舞蹈记谱法 Labanotation 体系获得启发——该系统以符号方式编码身体部位、方向、层级、持续时间等运动属性,天然具备可解释性和结构化特征。作者据此设计 LabanLite 作为连接语言与动作的"符号桥梁"。

  6. 核心idea一句话:将复杂动作分解为 Laban 符号序列,让 LLM 在符号空间中推理和组合动作计划,再由解码器将符号还原为连续动作轨迹。

方法详解

整体框架

LaMoGen 是一个 Text → LabanLite → Motion 的两阶段生成框架:

  • 第一阶段(高层语义规划):LLM 通过检索增强提示(Retrieval-Augmented Prompting)将文本指令转化为概念性 Laban 符号序列
  • 第二阶段(底层运动合成):Kinematic Detail Augmentor 自回归地将概念符号补充为完整的 LabanLite 编码,再由 Laban-Motion Decoder 解码为连续动作

框架包含两个核心模块:Laban-Motion Encoder-Decoder(动作↔符号双向转换)和 LLM-Guided Text-Laban-Motion Generation(LLM 驱动的符号组合与动作生成)。

关键设计

1. LabanLite 动作表示

  • 做什么:将传统 Labanotation 改造为适合机器学习和 LLM 推理的帧级符号表示
  • 核心思路:对 Labanotation 做三项关键增强:(1) 将符号分为概念性符号(主要运动结构,如方向、层级变化)和细节符号(精细属性,如弯曲角度);(2) 事件级标注改为帧级标注,每帧对应一个 Laban 实例;(3) 每个概念符号配备格式化的概念描述<body-part group> <moving semantic> in <time> seconds
  • 设计动机:概念/细节分离的设计使 LLM 只需处理高层概念符号(与自然语言对齐度高),而细节由专门的 Augmentor 自动补充。帧级标注提升了与 ML 模型的兼容性。固定格式的概念描述确保符号与文本之间的无歧义转换。

2. Laban Codebook 与编解码

  • 做什么:建立 Laban 符号的可学习嵌入空间,支持动作与符号的双向转换
  • 核心思路:将所有唯一的帧级 Laban 实例分配 Laban code,汇集为 Codebook \(C=\{c_n\}_{n=1}^{N}\)。编码器通过二元指示向量 \(v_t\) 激活对应的 codebook 条目,将其嵌入求和得到帧级 latent \(z_t=\sum_n v_t^n c_n\)。解码器(Transformer 架构)从 latent 重建动作
  • 设计动机:与 VQ-VAE 不同,这里用加性组合而非单一 token 选择,能通过线性组合近似连续变化,从简单符号构建复杂动作

3. 自动 Laban 符号检测工作流

  • 做什么:从连续动作数据中自动提取 Laban 符号序列
  • 核心思路:三步流水线——(1) 动态区间分割:将动作帧分类为动态/静止,按原子动作切分;(2) 帧级符号提取:根据末端执行器相对骨盆的 3D 位移计算方向/层级,根据欧拉角计算朝向/弯曲,根据骨盆速度量化运动力度;(3) 区间级符号聚合:为每个时间区间分配代表性符号组合
  • 设计动机:为 Conceptual Description Database 和 Laban Benchmark 提供高质量训练数据。离散化规则严格遵循 Labanotation 文献中被专业人士接受的标准阈值

4. LLM 引导的动作概念组合

  • 做什么:利用 LLM 将用户文本指令转化为概念性 Laban 符号计划
  • 核心思路:维护一个概念描述数据库(motion caption → conceptual description 的键值对)。推理时用 CLIP 计算用户查询与数据库 caption 的语义相似度,检索 Top-K 条目作为 in-context examples 提供给 LLM。LLM 推理文本指令与符号动作模式的对应关系,编辑或组合新的概念描述
  • 设计动机:RAG 策略让 LLM 无需微调即可理解 Laban 符号体系。概念描述的标准化格式保证 LLM 输出可被无歧义地映射回 Laban 符号

5. 运动学细节增强器(Kinematic Detail Augmentor)

  • 做什么:将 LLM 输出的概念符号补充为完整的 LabanLite 编码
  • 核心思路:以文本 \(m\) 和掩码概念向量 \(\hat{v}_{1:t-1}\) 为条件,自回归预测每帧的完整二元指示向量 \(v_t\),激活 codebook 中的概念和细节属性条目。训练时对概念向量施加随机掩码(masking ratio=0.3 最优)以提升泛化能力
  • 设计动机:LLM 擅长高层规划但缺乏时序建模精度,细节符号(朝向、弯曲、力度)需要专门的时序模型来补充。该阶段为符号序列增加约 60% 的信息量

损失函数 / 训练策略

  • Codebook 训练:联合优化解码器参数 \(\theta\) 和 codebook \(C\),最小化重建损失 \(\mathcal{L}_{rec} = \|X - \hat{X}\|_1 + \lambda\|\dot{X} - \dot{\hat{X}}\|_1\)(姿态 L1 + 速度 L1)
  • Augmentor 训练:二元交叉熵损失 \(\mathcal{L}_{gen} = -\sum_{t,n}[v_t^n \log p_t^n + (1-v_t^n)\log(1-p_t^n)]\),预测每帧每个 codebook 条目的激活概率
  • End-of-sequence:追加 <EOS> token,codebook 扩展为 \(N+1\) 条目,标记动作终止

实验关键数据

主实验

表1:Laban Benchmark 上的定量比较(Labanotation-based 指标 + R@3 / FID)

方法 avg.SMT↑ avg.TMP↑ avg.HMN↑ R@3↑ FID↓
MDM 0.338 0.298 0.201 0.180 22.81
ReMoDiff 0.441 0.365 0.265 0.192 7.121
MoDiff 0.466 0.366 0.274 0.196 5.701
CoMo 0.393 0.239 0.251 0.176 21.94
MotionGPT 0.461 0.347 0.307 0.195 2.072
LaMoGen (GPT4.1) 0.534 0.502 0.393 0.208 1.861
LaMoGen (Human) 0.626 0.628 0.462 0.211 1.769

表2:HumanML3D 标准 benchmark 上的比较

方法 R@1↑ R@3↑ FID↓ MM-Dist↓ Diversity→
Real data 0.511 0.797 0.002 2.974 9.503
ReMoDiff 0.510 0.795 0.103 2.974 9.018
CoMo 0.502 0.790 0.262 3.032 9.936
MotionGPT 0.492 0.778 0.232 3.096 9.528
LaMoGen (GPT4.1) 0.491 0.796 0.252 3.087 9.124
LaMoGen (Human) 0.513 0.813 0.206 2.993 9.635

消融实验

LLM 能力影响:更强的 LLM 带来更好的生成质量。GPT-4.1 > DeepSeek-V3 > Qwen3 > GPT-4.1mini > None(无 LLM),体现在 Laban 指标和 FID 上的一致性提升。

检索示例数量:在 HumanML3D 上用 GPT-4.1 测试 Top-K 检索。K=1→3 性能持续提升(LLM 需要足够示例进行模仿);K=5 或 7 无进一步提升(上下文窗口过长导致 LLM 遗忘关键线索)。默认使用 Top-3。

掩码比例:Augmentor 训练中对概念符号的随机掩码比例实验。0.3 为最优平衡点——过低则过度依赖概念线索(泛化差),过高则概念引导信号不足。

Laban 符号检测精度(Table 3):

方法 avg.SMT↑ avg.TMP↑ avg.HMN↑
Ikeuchi et al. 0.751 0.632 0.611
Ours 0.871 0.852 0.786

关键发现

  1. 符号推理显著优于联合嵌入:在 Laban Benchmark 上,LaMoGen (GPT4.1) 的 SMT/TMP/HMN 指标全面超越所有基于联合嵌入的方法,证明符号推理在时序精度和身体部位协调性上的优势
  2. MotionGPT 在结构化指令理解上的意外表现:虽然在传统 benchmark 上表现一般,但 MotionGPT 在 Laban Benchmark 上超过 CoMo,说明传统指标无法有效区分动作生成方法的真实能力
  3. FID 的局限性:LaMoGen 的 FID 略逊于部分方法,原因是 LabanLite 的高层抽象对同一语义下的低层变化(如不同人举手速度差异)使用相同符号,这是符号表示固有的表达力限制
  4. Human composer 上限:使用真实标注的概念符号(Human)比 LLM composer 效果更好,说明 LLM 符号组合能力仍有提升空间

亮点与洞察

  • 首个 LLM 自主动作生成框架:LaMoGen 是第一个让 LLM 无需微调、通过符号推理自主组合动作的框架,开辟了 Agent-based 动作生成的新范式
  • 符号表示的双重优势:LabanLite 既让 LLM 能"理解"动作(通过概念描述),又让人类专家能直接审查和编辑中间结果
  • 评测贡献:提出 SMT/TMP/HMN 三个 Laban 指标,填补了现有评测在时序精度和多部位协调性上的空白
  • 层次化设计思想:概念/细节分离 + LLM/Augmentor 分工的两阶段架构,是一种优雅的"各司其职"设计

局限性 / 可改进方向

  1. LabanLite 表达力上限:符号的离散化不可避免地丢失低层运动细节,导致 FID 偏高。未来可考虑引入连续属性字段或残差补偿机制
  2. LLM 依赖:框架性能受 LLM 能力制约(弱 LLM 符号组合质量明显下降),且推理需调用 API,增加延迟和成本
  3. 数据集局限:Laban Benchmark 以步行类动作为主,对更复杂的全身动作(如舞蹈、体操)的评估覆盖不足
  4. Laban 符号集固定:为保持专业性限制在传统 Labanotation 符号集,可能限制了对新兴动作类型的描述能力
  5. 检索依赖:RAG 策略的效果取决于 Conceptual Description Database 的覆盖度,对于训练集未见过的动作模式可能表现受限

相关工作与启发

  • CoMo (ECCV 2024):用 Posescript 将动作分解为身体部位级 pose code,但仅编码静态姿态缺乏时序表达。LaMoGen 的 Laban 符号同时编码起始/结束姿态和过渡过程,语义更完整
  • MotionGPT (NeurIPS 2024):对 LLM 进行微调使其处理动作 token。LaMoGen 不需微调 LLM,而是通过 RAG 让 LLM 在符号空间工作
  • KP (Kinematic Phrase):启发式抽象动作信号,但限于低层信号。LabanLite 提供了专业级别的高层抽象
  • 启发:符号中间表示 + LLM 推理的范式可推广到其他跨模态生成任务(如音乐→舞蹈、文本→手语),关键在于找到目标模态的结构化符号体系

评分

⭐⭐⭐⭐ — 将 Labanotation 引入 LLM 动作生成是一个巧妙且有说服力的创新,符号推理路线为可解释可控动作生成开辟了新方向;Laban Benchmark 的评测贡献也很扎实。但 FID 偏高和 LLM 依赖是需要后续工作解决的实际瓶颈。