跳转至

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

日期: 2026-03-11
arXiv: 2603.10446
代码: 即将开源
领域: 3D视觉 / 手语生成
关键词: sign language production, keyframe, conditional flow matching, SMPL-X, multilingual

一句话总结

提出 SignSparK,基于稀疏关键帧训练的手语生成框架,通过 FAST 自动分割模型提取语言学关键帧 + Conditional Flow Matching 从关键帧锚点生成连续 3D 手语序列,实现 100 倍效率提升并覆盖 4 种手语的最大多语言 SLP 系统。

研究背景与动机

  1. 领域现状: 手语生成 (SLP) 存在运动自然性和语言准确性的两难——直接 Text-to-Pose 有回归均值问题(动作欠表达),字典检索法虽准确但过渡生硬。

  2. 现有痛点: 单目 3D 估计不准(2D→3D 的投影歧义)限制了训练质量;现有方法计算昂贵难以扩展到多语言。

  3. 核心矛盾: 回归均值 vs 生硬过渡,准确性 vs 自然度。

  4. 核心 idea: 稀疏关键帧作为锚点——模型必须精确命中这些点(防止回归均值),同时学习帧间的流畅签名分布。重构式 Flow Matching 目标实现 <10 步高质量采样,支持大规模多语言扩展。

方法详解

整体框架

FAST(手语分割)提取时序边界 → 关键帧提取 → SignSparK(CFM)从文本+关键帧生成 SMPL-X/MANO 3D 序列 → 3D 高斯溅射渲染逼真头像。

关键设计

  1. FAST(手语分割模型):

    • 超高效单模态双流设计,自动挖掘手语序列的时序边界
    • 为训练范式提供关键帧标注(现有数据集无此标注)
    • 在大规模语料上计算开销极低,有独立价值
  2. 稀疏关键帧训练范式:

    • 关键帧作为训练输入的锚点,模型必须命中→防止回归均值
    • 帧间空间非线性复杂,不能靠简单插值→迫使模型学习真实签名分布
    • 推理时支持标准 T2P 生成和 Keyframe-to-Pose (KF2P) 可控生成
  3. 重构式 Flow Matching (CFM):

    • 高质量采样仅需 <10 步(vs 之前方法 100+ 步)
    • 100 倍效率提升使多语言扩展成为可能
    • 在 SMPL-X 和 MANO 参数空间生成,物理可信

实验关键数据

多语言基准

手语 数据集 SignSparK vs 前SOTA
德语 (DGS) PHOENIX 新 SOTA
中文 (CSL) CSL Daily 新 SOTA
美语 (ASL) How2Sign 新 SOTA
英国 (BSL) BOBSL 新 SOTA

效率对比

方法 采样步数 相对效率
前 SOTA 100+
SignSparK <10 100×

关键发现

  • 稀疏关键帧训练有效消除回归均值,生成动作更清晰有力
  • KF2P 模式支持精确时空编辑——可替换有噪声的 3D 估计
  • 3DGS 渲染产生照片级逼真手语头像
  • 4 种手语的统一框架——迄今最大规模多语言 SLP

亮点与洞察

  • 关键帧训练范式通用性: 借鉴动画行业的关键帧思维,既防回归均值又支持可控编辑
  • 效率换规模: 100 倍效率提升使多语言扩展从不可能变为可能

局限性 / 可改进方向

  • 仅关注手动表达(上半身+手),面部表情/口型等非手动标记未处理
  • FAST 的分割质量直接影响关键帧质量
  • 3D 参数空间估计仍依赖现有 3D pose 估计器

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 稀疏关键帧训练范式是手语生成的范式创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 种语言 × 多数据集 × 多任务(T2P/KF2P)
  • 写作质量: ⭐⭐⭐⭐ 结构完整动机清晰
  • 价值: ⭐⭐⭐⭐⭐ 对手语技术和听障辅助有重大实用价值