Miburi: Towards Expressive Interactive Gesture Synthesis¶

会议: CVPR 2026 arXiv: 2603.03282 代码: 项目主页领域: 人体理解 关键词: 共语手势生成, 具身对话代理, 因果自回归, 实时生成, 残差向量量化

一句话总结¶

提出 Miburi，首个在线因果框架，通过直接利用语音-文本大模型 Moshi 的内部 token 流和二维因果 Transformer，实现实时同步的全身手势与面部表情生成。

研究背景与动机¶

当前 LLM 对话代理缺乏具身能力和表达性手势。现有的共语手势生成方法分两类：(1) 生成式方法（扩散/Transformer）产生自然表达性手势，但需要未来语音上下文，无法实时运行；(2) 实时系统（规则/简单网络）可在线运行但手势生硬、多样性低。关键矛盾是：因果（仅依赖过去输入）和实时（低延迟）两个需求同时满足非常困难。传统 pipeline 将 LLM 输出→语音合成→音频编码→手势生成串行处理，引入大量延迟。

方法详解¶

整体框架¶

Miburi 构建在 Moshi（语音-文本基础模型）之上，直接利用其内部 speech/text token 流作为条件信号，通过身体部位感知的手势编解码器将动作编码为多层级离散 token，再由二维因果 Transformer（时间+运动学）自回归生成手势 token。

关键设计¶

身体部位感知手势编解码器（Body-part Gesture Codecs）: 将全身动作分解为三个区域：上身+手 \(\mathbf{x}^u\)、下身+全局位移 \(\mathbf{x}^l\)、面部表情（FLAME 参数）\(\mathbf{x}^f\)。每个区域独立使用 Residual VQ-VAE 编码，编码器含下采样 1D 卷积 + 因果自注意力 Transformer，输出经残差向量量化为多层级 token \(\mathbf{g}^b \in \mathbb{R}^{T \times K^b}\)（\(K^u=K^l=8, K^f=4\) 层级）。每个 token 代表 2 帧（0.08 秒）动作，与 Moshi 的 token 率对齐。RVQ 相比普通 VQ-VAE 更好地保留精细运动学细节。
二维因果 Transformer: 解耦时间维度和运动学维度的预测：
时间 Transformer \(\mathcal{T}_{\text{temporal}}\): 4 层 2 头，因果自注意力（上下文 25 tokens）+ 双因果交叉注意力（speech/text，上下文 50 tokens），自回归预测每帧的第一层级 token \(\mathbf{g}_{(t,1)}\)。\(K\) 个层级的嵌入求和为单一输入。
运动学 Transformer \(\mathcal{T}_{\text{kinematic}}\): 2 层 1 头，在固定时间步 \(t\) 内自回归预测后续层级 \(\mathbf{g}_{(t,k)}\)，以时间上下文 \(\mathbf{h}_t\) 和 speech/text 嵌入为条件。

相比朴素单流处理 \(T \cdot K\) 个 token，二维分解大幅降低注意力上下文长度和推理延迟。

表达性增强目标:
对比 InfoNCE 损失: 对预测 token 通过 Gumbel-Softmax 重参数化获取可微分潜在表示 \(\mathbf{z} = \sum_k \text{GumbelSoftmax}(\tilde{\mathbf{o}}_k) \mathbf{C}_k\)，在时间片段上施加 InfoNCE 损失，推高匹配 GT-预测对相似度、推低不匹配对。
语音激活损失: 对 \(\mathbf{h}_t\) 附加二分类头区分聆听/说话状态（BCE 损失），防止聆听时产生幽灵手势，强制说话时生成语音对齐的表达性手势。

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{\text{CE}} + \alpha \mathcal{L}_{\text{con}} + \beta \mathcal{L}_{\text{va}}\)，其中 \(\alpha=0.1, \beta=0.01\)。

推理时使用 top-p 核采样（时间 Transformer \(p=0.8\)，运动学 Transformer \(p=0.95\)，温度 0.9）保持多样性，并使用 classifier-free guidance（单说话人 CFG=1.5，多说话人 CFG=2.3）。KV-Cache 实现高效因果推理，下身 token 屏蔽 speech/text 交叉注意力节省运行时间。

实验关键数据¶

主实验¶

方法	FGD↓	BeatAlign→	L1-Div→	因果	实时
CaMN	0.736	0.176	6.73	✗	✗
RAG-Gesture	0.515	0.648	10.09	✗	✗
GestureLSM	0.537	0.481	8.41	✗	✓
GestureLSM (Causal)	2.792	0.684	9.11	✓	✓
MambaTalk	1.375	0.080	3.73	✗	✓
Miburi (+Face)	0.480	0.461	10.44	✓	✓

消融实验¶

配置	关键指标	说明
Moshi tokens vs wav2vec	FGD 0.480 vs 0.665, BeatAlign 0.461 vs 0.363	Moshi 内部特征显著优于标准音频编码
二维 Transformer vs 单流	FGD/BeatAlign/Diversity 均更优，延迟近半	分解时间和运动学维度至关重要
单说话人 vs 多说话人	多说话人 FGD 从 0.753 降至 0.480	模型从更大数据受益明显
延迟对比	Miburi 34.9ms vs GestureLSM 144.7ms	最低延迟（A100）

关键发现¶

Miburi 是唯一同时满足因果、实时、表达性三个条件的方法
在 23 说话人多说话人设置下取得 SOTA（FGD 0.480，BeatAlign 0.461），超越所有非因果基线
朴素将现有方法改为因果版本（GestureLSM Causal, MambaTalk Causal）性能显著下降，说明专用因果架构的必要性
用户研究表明 Miburi 在动作自然度和语音适配性上优于 EMAGE 和 GestureLSM

亮点与洞察¶

新范式: 跳过传统 LLM→TTS→audio encoder→gesture 的串行 pipeline，直接利用语音模型内部 token 流，消除延迟瓶颈
二维因果 token 预测: 巧妙解耦时间和运动学维度，类似 RQ-Transformer 的思路应用于动作生成
RVQ 分层编码: 区分粗粒度大幅运动和精细手指手势，多体区独立编码尊重不同身体部位与语音的关联差异
Gumbel-Softmax 桥接离散采样与连续损失: 使对比学习可在离散 token 空间上端到端训练

局限性 / 可改进方向¶

用户研究显示与真实动作数据相比仍有差距
面部表情质量（Facial-MSE 7.77）相较专用模型还有提升空间
下身动作与语音关联较弱，当前直接屏蔽交叉注意力可能过于粗糙
依赖 Moshi 模型，推理时需同时运行 Moshi + Miburi，整体系统资源需求较高
评估仅在 BEAT2 数据集上，泛化到其他域（如手语、虚拟主播）有待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个合格的因果+实时+表达性手势生成系统，新范式开创性强
实验充分度: ⭐⭐⭐⭐ 多说话人/单说话人评估、用户研究、丰富消融，但仅一个数据集
写作质量: ⭐⭐⭐⭐ 问题定义准确（区分因果与实时），图示清晰
价值: ⭐⭐⭐⭐⭐ 对具身对话代理领域有重大推动，技术路线有高度可扩展性