Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion¶
会议: AAAI2026
arXiv: 2503.10488
代码: GitHub
领域: human_understanding
关键词: co-speech gestures, rolling diffusion, streaming generation, real-time, noise scheduling, motion synthesis
一句话总结¶
提出基于 Rolling Diffusion 的流式共语手势生成框架,通过结构化渐进噪声调度将任意扩散模型转化为流式手势生成器,并引入 Rolling Diffusion Ladder Acceleration (RDLA) 实现最高 4× 加速(200 FPS),在 ZEGGS 和 BEAT 基准上全面超越基线。
背景与动机¶
- 共语手势(co-speech gestures)在虚拟助手、视频会议、游戏和具身 AI 中至关重要,实时流式生成是交互场景的硬需求
- 现有扩散方法面临的核心问题:
- 分块拼接:PersonaGestor、DiffSHEG 等方法将长序列切成固定长度片段分别生成再拼合,导致视觉不连续和后处理延迟
- 种子帧条件:DiffuseStyleGesture、Taming 等依赖前序帧条件生成,虽改善连续性但带来巨大计算开销
- Outpainting 策略:DiffSHEG 采用增量外绘,仍需额外后处理步骤
- Rolling Diffusion Models (RDMs) 是有前景的替代方案,将扩散模型变为自回归过程改善时序一致性,但其自回归循环计算代价高昂,未被成功应用于实时共语手势生成
核心问题¶
如何将 Rolling Diffusion 框架有效适配到共语手势生成任务,实现任意长度的流式无缝生成,同时大幅降低推理延迟以满足实时需求?
方法详解¶
整体框架¶
基于 Rolling Diffusion Models (RDMs) 的统一流式框架,核心思路是在时间轴上施加渐进式噪声调度:
- 维护一个大小为 \(N\) 的滚动窗口 \(\mathbf{x}_j^{t_0} = \{x_{j+n}^{t_n}\}_{n=0}^{N-1}\)
- 窗口内帧的噪声水平从前到后线性递增:\(t_n = t_0 + n \cdot s\),其中步长 \(s = T/N\)
- 每经过 \(s\) 步去噪,第一帧完全去噪输出,窗口右移一帧,末端补入新的高斯噪声帧
- 该过程可生成任意长度的连续手势序列,无需后处理
关键设计 1:模型适配策略¶
- 通用性:框架与具体扩散模型架构解耦,仅需修改时间嵌入(time embedding)注入方式
- 原始模型中所有帧共享同一个时间嵌入,本方法为窗口内每帧分配独立的时间嵌入,反映其各自的噪声水平
- 条件输入保持不变:音频特征 \(U = \{u_k\}\) 由预训练 WavLM 提取,可附加风格/说话人 ID
- 模型输入为上下文帧与滚动窗口的拼接:\([\mathbf{x}_j^{cont}, \mathbf{x}_j^t]\)
关键设计 2:上下文帧正则化¶
- 在滚动窗口前拼接 \(n^{cont}\) 个已生成帧作为上下文
- 关键发现:对上下文帧施加极小噪声 \(t=1\)(\(\sigma_1^2 = 0.00004\))作为正则化,显著提升模型鲁棒性和泛化能力,防止过拟合
关键设计 3:Rolling Diffusion Ladder Acceleration (RDLA)¶
标准 Rolling Diffusion 每 \(s\) 步仅完全去噪一帧,存在顺序瓶颈。RDLA 通过阶梯式噪声调度实现多帧同时去噪:
- 将原始线性噪声调度变换为步长 \(l\) 的阶梯状调度: $\(t_i^l = t_0^l + (k+1) \cdot l - 1, \quad kl \le i < (k+1)l - 1\)$
- 每个阶梯内的帧共享相同噪声水平,可联合去噪 \(l\) 帧
- \(l=1\) 即退化为标准 Rolling Diffusion;\(l=2\) 获得 2× 加速;\(l=4\) 获得 4× 加速
- 保证最后一个阶梯的噪声水平等于 \(T\),维持零信噪比起始点
训练策略¶
- 标准训练:均匀采样窗口起始位置 \(j\) 和初始噪声水平 \(t_0\),使用统一权重 \(a(t_n)=1\)(而非 SNR 加权),更简单稳定
- 仅训练 rolling phase:省略初始下降阶段的训练,简化流程
- RDLA 渐进微调:逐步增大阶梯步长 \(l=2,4,...\),每步从上一步权重初始化
- 惯性损失(Inertial Loss): $\(\mathcal{L}_{RDLA} = \sum_{n} \|x_{j+n}^0 - \hat{x}_{j+n}\|^2 - 2\lambda \sum_{n} \langle x_{j+n}^0 - \hat{x}_{j+n}, x_{j+n+1}^0 - \hat{x}_{j+n+1} \rangle\)$ 第二项惩罚相邻帧去噪结果的突变,抑制运动抖动
- On-the-Fly Smoothing (OFS):推理时对相邻去噪块间的帧用余弦相似度阈值决定是否进行均值平滑
实验关键数据¶
ZEGGS 数据集定量结果¶
| 方法 | Div_g ↑ | Div_k ↑ | FD_g ↓ | FD_k ↓ |
|---|---|---|---|---|
| GT | 272.34 | 213.97 | – | – |
| DSG orig. | 239.37 | 161.07 | 6393.99 | 14.24 |
| DSG roll. (Ours) | 251.35 | 175.12 | 3831.35 | 8.08 |
| DSG RDLA 2× | 222.25 | 173.76 | 5772.40 | 13.65 |
| Taming orig. | 154.70 | 80.70 | 10784.86 | 418.85 |
| Taming roll. (Ours) | 190.09 | 124.42 | 9064.00 | 353.62 |
| PersGestor orig. | 230.11 | 165.17 | 4060.36 | 11.12 |
| PersGestor roll. (Ours) | 242.14 | 189.31 | 3936.75 | 9.14 |
推理速度对比¶
| 方法 | 阶梯步长 l | 去噪步数 | FPS | 延迟 (秒) |
|---|---|---|---|---|
| DSG orig. (baseline) | – | 1000 | 10 | 8.0 |
| DSG roll. (Ours) | 1 | 1000 | 10 | 0.06 |
| DSG roll. (Ours) | 1 | 100 | 70 | 0.006 |
| DSG RDLA (Ours) | 2 | 100 | 120 | 0.003 |
| DSG RDLA (Ours) | 4 | 100 | 200 | 0.002 |
- 延迟从基线的 8 秒降至 0.002 秒,实现真正的实时生成
- 用户研究:48.4% 用户偏好 rolling 版本 vs 36.3% 偏好原始 DSG(Wilcoxon 检验 \(p<0.05\))
- RDLA \(l=2\) vs rolling:48.2% vs 45.7%,加速代价极小
BEAT 数据集亮点¶
- RDLA \(l=2\) 在 BEAT 上 FD_g 降至 17309.63(rolling 为 21441.91),FD_k 降至 56.24(rolling 为 69.23),加速反而改善了质量
- 原因:BEAT 手势更平稳,阶梯化带来的平滑效应对该数据集有益
亮点与洞察¶
- 即插即用:框架与具体扩散架构解耦,成功应用于 DSG、Taming、PersonaGestor、DiffSHEG 四种不同基线,均获提升
- 首次将 Rolling Diffusion 成功应用于实际任务,证明其在流式生成场景的实用价值
- RDLA 阶梯加速思路新颖:通过将线性噪声调度变换为阶梯状,实现多帧联合去噪,与 DDIM 等加速方法正交
- 上下文帧微量噪声的正则化技巧简单有效,值得在其他序列扩散任务中推广
- 200 FPS 的推理速度远超实时要求(30 FPS),为下游应用留出充足余量
局限性¶
- RDLA \(l=4\) 在表达性强的 ZEGGS 数据集上质量下降明显(FD_g 从 3831 升至 16791),加速与质量的平衡依赖数据特性
- 仅在 BVH 格式的骨骼运动数据上验证,未扩展到 3D mesh 或视频驱动的手势生成
- 评估指标(FD、Div)基于统计分布匹配,可能无法完全捕捉语义对齐质量
- 用户研究规模有限(22 名评估者),且仅在单一基线 DSG 上进行对比
- 未与非扩散类流式方法(如 GAN、Flow-based)进行对比
相关工作对比¶
| 维度 | 本方法 (Rolling Diffusion) | 分块拼接方法 | Outpainting (DiffSHEG) | 种子帧条件 |
|---|---|---|---|---|
| 流式生成 | ✓ 原生支持 | ✗ 需后处理 | 部分支持 | ✗ 非流式 |
| 时序连续性 | 渐进噪声保证 | 拼接伪影 | 增量扩展 | 种子帧约束 |
| 实时速度 | 200 FPS (RDLA 4×) | 受限于后处理 | 受限于 outpainting | ~10 FPS |
| 架构通用性 | 即插即用 | 模型特定 | 模型特定 | 模型特定 |
| 序列长度 | 任意长度 | 固定窗口 | 增量式 | 固定窗口 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 Rolling Diffusion 应用于共语手势生成,RDLA 阶梯加速方案原创性强
- 实验充分度: ⭐⭐⭐⭐ — 双数据集 + 四基线交叉验证 + 用户研究 + 消融实验
- 写作质量: ⭐⭐⭐⭐ — 框架描述清晰,公式推导完整,图示直观
- 价值: ⭐⭐⭐⭐ — 提供了通用流式手势生成解决方案,200 FPS 实时性突出
相关论文¶
- [ICCV 2025] Understanding Co-speech Gestures in-the-wild
- [ICLR 2026] Scaling Speech Tokenizers with Diffusion Autoencoders
- [ICCV 2025] GestureHYDRA: Semantic Co-speech Gesture Synthesis via Hybrid Modality Diffusion Transformer and Cascaded-Synchronized Retrieval-Augmented Generation
- [AAAI 2026] FineXtrol: Controllable Motion Generation via Fine-Grained Text
- [ACL 2025] I See What You Mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue