跳转至

HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation

会议: CVPR 2025
arXiv: 2503.01175
代码: https://star-uu-wang.github.io/HOP/
领域: 人体理解
关键词: 语音伴随手势生成, 多模态纠缠, 时空图建模, 跨模态适配, 重编程

一句话总结

本文提出 HOP,一种基于异构拓扑的多模态纠缠方法,通过将音频作为桥梁,利用重编程模块对齐音频-文本语义、利用时空图网络对齐音频-动作节奏,实现更自然连贯的语音伴随手势生成,在 FGD、BC 和多样性指标上达到 SOTA。

研究背景与动机

  1. 领域现状:语音伴随手势生成(co-speech gesture generation)旨在为虚拟角色/具身智能体自动生成与语音同步的手势动作。方法已从早期的规则方法、概率方法发展到深度学习方法(GRU、GAN、扩散模型等),通常采用多模态融合策略整合文本、音频和手势信息。

  2. 现有痛点:现有多模态方法通常假设各模态是独立解耦的——分别用不同编码器映射到潜空间后再融合。但实际上,语音、手势和文本之间存在天然的内在依赖关系:口头表达会影响手势模式,反之亦然。简单的模态融合方法忽略了这种相互依赖性,导致生成的手势缺乏连贯性和表现力,动作往往显得机械和呆板。

  3. 核心矛盾:三种模态(文本、音频、动作)存在天然的异构性——文本是离散语义信号,音频是连续时频信号,动作是空间关节序列,直接融合无法捕捉它们之间的深层关联。

  4. 本文目标 显式建模文本-音频-动作三模态之间的拓扑交互关系,生成与语义内容和节奏特征都对齐的自然手势。

  5. 切入角度:作者发现音频天然编码了手势的节奏和文本的语义,是连接文本和动作的桥梁。因此以音频为枢纽,分别建立音频-文本(语义对齐)和音频-动作(节奏对齐)两条跨模态适配路径。

  6. 核心 idea:以音频为桥梁,通过重编程实现音频-文本语义对齐 + 通过时空图实现音频-动作节奏对齐 = 拓扑纠缠的三模态表示。

方法详解

整体框架

输入为语音音频和对应的文本转录。音频经 Mel 频谱提取后进入两条路径:(1) 通过重编程模块将音频特征"翻译"为文本空间的表示,送入预训练语言模型提取语义信息;(2) 通过时空图网络 GraphWaveNet 与动作特征联合建模节奏和空间依赖。两路特征经拓扑融合后输入 GRU 手势生成器,结合说话人风格特征生成最终手势动作。训练使用 Huber loss + 风格 loss + KL 散度 + 对抗 loss 的组合目标。

关键设计

  1. Audio-Text 跨模态适配(重编程模块):

    • 功能:将音频 Mel 频谱特征"重编程"为与预训练语言模型兼容的输入格式,实现音频-文本语义对齐
    • 核心思路:首先将 Mel 频谱特征 \(\mathbf{M}^{(t)} \in \mathbb{R}^{1 \times T}\) 作为 query,将预训练词嵌入(经线性层压缩为更小 vocabulary \(V' \ll V\))作为 key 和 value,通过多头交叉注意力计算对齐:\(\hat{w}_{1:T} = \text{Linear}(\text{Softmax}(\frac{QK^{\top}}{\sqrt{d}})V)\)。重编程后的音频特征与文本特征一起输入冻结的语言模型(BERT),提取深层语义表示。随着训练推进,音频和文本特征在嵌入空间中逐渐对齐。
    • 设计动机:音频数据无法直接用自然语言表示,但利用预训练语言模型的强大推理能力可以提取更深层的语义信息。重编程模块首次被应用于手势生成领域,巧妙地绕过了模态不兼容问题。
  2. Audio-Action 跨模态适配(时空图网络):

    • 功能:通过时空图建模捕捉手势动作的空间骨骼依赖和音频的时间节奏特征
    • 核心思路:将动作(骨骼方向向量)和音频分别建模为图结构 \(\mathbf{G}=(v,e_1)\)\(\mathbf{R}=(v,e_2)\)。空间维度使用自适应邻接矩阵 \(\mathbf{A}_{adapted} = \text{SoftMax}(\text{ReLU}(\mathbf{E}_1 \odot \mathbf{E}_2^T))\) 学习骨骼关节间的隐式依赖关系。时间维度使用膨胀因果卷积(dilated causal convolution)捕捉长程节奏模式。借鉴 GraphWaveNet 的架构,同时处理图结构的空间关系和 WaveNet 式的时间建模。
    • 设计动机:传统方法只输入前几帧真实动作到 GRU,忽略了动作中更细粒度的运动特征。时空图方法可以同时捕捉关节间的空间协调性和音频-动作间的时间同步性,生成更自然的手势。
  3. 拓扑融合与 GAN 训练:

    • 功能:将音频-文本和音频-动作两路特征融合,通过 GAN 生成最终手势
    • 核心思路:两路跨模态适配特征 \(\mathbf{Z}_{(w,r)}^t\)\(\mathbf{Z}_{(r,g)}^t\) 在每个时间步拓扑融合,加入说话人风格嵌入后送入多层双向 GRU 网络生成手势。GAN 判别器用于提升生成手势的真实感。
    • 设计动机:GRU 网络适合处理序列生成任务,GAN 对抗训练提升了输出的真实感和多样性,说话人风格嵌入保证了个性化。

损失函数 / 训练策略

总损失 \(\mathcal{L}_{gesture} = \alpha \cdot \mathcal{L}_{Huber}(\mathbf{g}, \hat{\mathbf{g}}) + \beta \cdot \mathcal{L}_{style}(\mathbf{g}_{id}, \hat{\mathbf{g}}_{id'}) + \gamma \cdot \mathcal{L}_{KLD} + \lambda \cdot \mathcal{L}_{GAN}\)。Huber loss 确保动作精度,风格 loss 区分不同说话人,KL 散度防止风格嵌入空间过于稀疏,GAN loss 提升真实感。使用 Adam 优化器(lr=0.0001, β=(0.5, 0.999)),训练 75 epochs,单卡 NVIDIA RTX 6000 Ada。

实验关键数据

主实验

TED Gesture 和 TED Expressive 对比(表1)

方法 TED Gesture FGD↓ TED Gesture BC↑ TED Gesture Diversity↑ TED Expressive FGD↓
Trimodal 3.729 0.667 101.247 12.613
HA2G 3.072 0.672 104.322 5.306
DiffGesture 1.506 0.699 106.722 2.600
HOP 1.406 0.762 108.176 1.815
Ground Truth 0 0.698 108.525 0

消融实验

模型组件消融(表5)

配置 FGD↓ BC↑ Diversity↑
w/o Graph Encoder 2.026 0.650 103.311
w/o Reprogramming 1.721 0.755 105.360
Full model 1.406 0.762 108.176

文本解码器消融(表4)

配置 FGD↓ BC↑ Diversity↑
w/o Language Model 1.955 0.701 105.311
GPT-2 1.319 0.753 107.036
BERT 1.406 0.762 108.176

关键发现

  • Graph Encoder 贡献最大:去掉后 FGD 从 1.406 上升到 2.026(+44%),说明时空图建模对动作质量至关重要。
  • Reprogramming 模块对 FGD 和 Diversity 都有显著贡献,验证了音频-文本语义对齐的有效性。
  • HOP 在数据减少至 50% 时仍保持较好性能(FGD=2.709),而 Trimodal 在 50% 数据下降到 7.364,说明拓扑融合带来更强的泛化能力。
  • BC 指标上 HOP (0.762) 甚至超过 Ground Truth (0.698),但过高的 BC 可能导致不自然的过频动作,需要平衡。
  • 用户研究 26 人评测中,HOP 在自然度 (3.92)、语义相关性 (4.01)、同步性 (3.86) 上均接近 Ground Truth (4.16/4.39/4.28)。

亮点与洞察

  • "音频即桥梁"的洞察:音频天然同时编码了语义信息(文本内容)和节奏信息(动作时序),将其作为连接文本和动作的中间件非常巧妙。这种"中间模态桥接"思想可迁移到其他三模态任务。
  • 重编程技术用于跨模态适配:首次将深度模型重编程引入手势生成,将音频"翻译"为语言模型可理解的格式,无需微调语言模型本身。这种技术可迁移到任何需要利用冻结大模型处理异构输入的场景。
  • 渐进式数据缩减实验:table 3 展示了模型在数据量渐减时的优雅降级,是评估模型鲁棒性的好方法。

局限与展望

  • 目前只评估了上半身手势(10/43 个关键点),未涉及全身运动或面部表情。
  • 使用 GAN 生成器,已被扩散模型在多个生成任务上超越。将拓扑纠缠思想与扩散模型结合可能获得更好效果。
  • BC 超过 Ground Truth 不一定是好事,可能暗示模型倾向生成过度节拍同步的动作。
  • 重编程模块依赖预训练词嵌入,对低资源语言的适配性未知。
  • 未考虑情感信息的显式建模,而情感对手势风格有显著影响。

相关工作与启发

  • vs Trimodal: Trimodal 也使用文本+音频+动作三模态,但各模态独立编码后简单融合。HOP 显式建模模态间拓扑关系,FGD 从 3.729 降至 1.406。
  • vs DiffGesture: DiffGesture 使用扩散模型生成手势,效果优秀但可能生成不够多样化的动作。HOP 在 FGD 上略优 (1.406 vs 1.506) 且 BC 更好。
  • vs HA2G: HA2G 提取层次化音频特征,但缺乏音频-文本的深层语义融合。HOP 通过重编程模块实现了更细粒度的语义理解。

评分

  • 新颖性: ⭐⭐⭐⭐ 音频桥梁+多模态拓扑纠缠的框架设计新颖,重编程技术在手势生成中的首次应用有新意
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、用户研究、多维消融和泛化实验较完整,但缺少与 EMAGE 等最新方法的对比
  • 写作质量: ⭐⭐⭐⭐ 概念表述清晰,拓扑纠缠的动机推导合理,图表直观
  • 价值: ⭐⭐⭐⭐ 对手势生成领域有实际贡献,音频桥梁和重编程思想可迁移性强

相关论文