Understanding Co-speech Gestures in-the-wild¶

会议: ICCV 2025
arXiv: 2503.22668
代码: 项目主页
领域: 人体理解
关键词: 共语手势, 三模态表征学习, 手势检索, 手势词定位, 活跃说话人检测

一句话总结¶

本文提出 JEGAL——一个联合手势-语音-文本的三模态嵌入空间，通过全局短语对比损失和局部手势-词耦合损失在弱监督条件下学习共语手势表征，定义了三个新的手势理解任务和基准，超越了包括大型视觉语言模型在内的多种方法。

研究背景与动机¶

人类说话时会做手势——手势是人类交流的重要组成部分。共语手势种类丰富：从节拍手势（beat gestures，强调特定词汇的节奏性手部运动）到图示性手势（iconic gestures，表示语义内容，如用手臂展开表示"巨大"）。非语言交流占总体交流的 55%，但机器对手势语义的理解仍然非常有限。

学习手势与语音/文本之间的关联异常困难，原因包括：

稀疏且模糊的跨模态相关性：通常只有少数几个词会被清晰地用手势表达，同一句话在不同上下文/不同人的表达中手势差异巨大。

高度的个体和文化差异：手势取决于说话人的情绪、文化、社交场景等因素。

部分手势无语义信息：节拍手势仅与语音韵律对齐，不携带语义内容，无法直接映射到特定词汇。

现有工作的不足： - GestSync 通过音视频同步来学习手势表征，但只捕捉低层次的时序关联而非高层语义。 - GestureDiffuCLIP 学习了手势-文本联合嵌入，但缺少词级对应关系。 - 大型视觉语言模型（如 CLIP、LanguageBind）不是为手势理解设计的，处理长视频和手势特征的能力有限。

方法详解¶

整体框架¶

JEGAL（Joint Embedding space for Gestures, Audio, and Language）学习三模态表征，通过两个互补的对比学习目标：

全局短语对比损失：鼓励模型学习手势片段与语音/文本片段之间的整体语义对应。
局部手势-词耦合损失：鼓励模型发现手势片段中与特定词汇对应的帧级关联。

关键设计¶

三个模态编码器 + 融合模块
- 手势编码器 $\mathbb{G}$：3D 卷积层（首层时序感受野 5 帧）+ Transformer 编码器，输出帧级特征 $\mathbf{g}^T \in \mathbb{R}^{T \times d}$。骨干网络从 GestSync 初始化并冻结，仅训练 Transformer 头。面部区域被遮罩以防止唇部运动信息泄漏。
- 文本编码器 $\mathbb{L}$：多语言 RoBERTa XLM-Base 提取子词特征，经 Transformer 头编码和投影得到 $\mathbf{l}^w \in \mathbb{R}^{W \times d/2}$。
- 语音编码器 $\mathbb{S}$：2D-CNN 编码梅尔频谱图，输出 $\mathbf{s} \in \mathbb{R}^{T' \times d/2}$。
- 融合模块：将子词文本嵌入聚合为词级嵌入 $\mathbf{l}^w$，将语音特征按词边界聚合为词级特征 $\mathbf{s}^w$，在特征维度上拼接得到联合词级表示 $\mathbf{c}^w \in \mathbb{R}^{W \times d}$。

训练中 50% 概率随机将语音或文本输入置零（模态丢弃），促使模型均衡学习两种模态，也允许推理时仅用单一模态。

手势-词对齐机制

词的边界与语音对齐，但不一定与手势对齐——手势可能比词更长/更短或有偏移。为此设计了基于注意力的池化：将词的时间窗口向两侧扩展 $p=10$ 帧，然后用词嵌入 $c^{w_i}$ 对扩展窗口内的手势帧进行注意力加权聚合：

$$g^{w_i} = \sum_{j=S}^{E} \frac{\exp(\gamma \cdot g^{T_j} \cdot c^{w_i})}{\sum_{j=S}^{E} \exp(\gamma \cdot g^{T_j} \cdot c^{w_i})} \cdot g^{T_j}$$

这使得模型能够灵活地在语音边界之外找到手势的真正时间范围。

双重训练目标

全局短语对比损失：对帧级手势和词级语音文本分别平均池化得到全局嵌入 $\mathbf{g}$ 和 $\mathbf{c}$，使用 InfoNCE 损失：

$$\mathcal{L}_{seq} = -\frac{1}{N}\sum_{i=1}^{N} \log \frac{\exp(\gamma \cdot \cos(g_i, c_i))}{\sum_{j=1}^{N} \exp(\gamma \cdot \cos(g_i, c_j))}$$

局部手势-词耦合损失：对于每个语音文本词 $c^{w_i}$，找到其最相似的手势帧 $g^{w_j}$，计算耦合评分 $\lambda(g^w, c^w) = \frac{1}{W}\sum_{i=1}^{W}\max_{j}\cos(g^{w_i}, c^{w_j})$。核心假设：匹配的手势-语音文本对有更多强词级耦合。同样使用 InfoNCE 形式的对比损失。

最终损失：$\mathbb{L} = \beta \cdot \mathcal{L}_{seq} + (1-\beta) \cdot \mathcal{L}_{couple}$

损失函数 / 训练策略¶

数据来源：PATS（25 个说话人、162 小时）+ MultiVSR 子集（6,934 个说话人、556 小时），共约 720 小时、7,000+ 说话人。
预处理：重采样 25FPS / 16kHz，WhisperX 生成词对齐转录，基于身体关键点 L2 距离过滤低手势活动样本。
优化器：AdamW, lr=5e-5, weight decay=1e-4, betas=(0.9, 0.98)。
手势头 6 层 Transformer，文本头 3 层，hidden dim=512, FFN=2048, 8 heads。

实验关键数据¶

主实验¶

跨模态检索（AVS-Ret 基准，500 个多样性手势片段）：

方法	模态	S→G R@5↑	S→G R@10↑	S→G MR↓	G→S R@5↑	G→S R@10↑	G→S MR↓
GestSync (FT)	Audio	10.0	18.2	70.5	11.6	16.6	82.5
Clip4Clip (FT)	Text	8.0	12.6	132.0	3.6	7.0	125.0
JEGAL	T+A	18.8	30.8	31.0	18.2	20.2	24.5

JEGAL 大幅领先所有基线，多模态融合（T+A）显著优于单模态。

手势词定位（AVS-Spot 基准，500 个标注片段）：

方法	模态	准确率↑
GestSync (FT)	Audio	21.04
GestureDiffuCLIP (FT)	Text	19.50
JEGAL (Text)	Text	61.00
JEGAL (T+A)	T+A	63.60

JEGAL 在词定位上碾压所有基线（63.6% vs 21.04%），核心优势来自局部手势-词耦合损失。

活跃说话人检测（AVS-Asd 基准）：

方法	2人↑	4人↑	6人↑
GestSync (FT)	81.2	64.8	54.4
JEGAL (T+A)	76.8	57.8	48.0

GestSync 在此任务上最优（因其有强帧级同步监督），JEGAL 紧随其后。

消融实验¶

损失配置	检索 R@5↑	检索 MR↓	定位 Acc↑	ASD Acc↑
仅全局对比	12.20	45	20.83	44.2
仅词耦合	8.50	76	52.46	14.8
全局 + 词耦合	18.80	31	63.60	48.0

融合策略	检索 R@5↑	定位 Acc↑	ASD Acc↑
独立成对对比 (text)	9.39	34.31	29.6
独立成对对比 (audio)	9.80	23.67	31.4
晚期融合 (平均)	17.00	56.04	41.2
晚期融合 (拼接)	18.80	63.60	48.0

关键发现¶

语音和文本捕捉互补的手势信号：文本在词级语义对应上更有效（定位 61.0% vs 41.8%），而语音对重音/强调词更敏感（重音词定位差异 39.4% vs 非重音词差异 14.8%）。
两个损失缺一不可：全局对比损失对检索和 ASD 至关重要，词耦合损失对定位至关重要，组合使用在所有任务上最优。
拼接融合优于平均融合和独立成对对比——模型需要在同一嵌入空间内整合多个信息流。

亮点与洞察¶

弱监督下的词级学习：仅有短语级监督（不知道哪些词被手势表达），但通过耦合损失的 max-coupling 策略成功学到了词级对应关系。
三个新任务和基准的定义：为共语手势理解建立了系统性的评估框架（检索/定位/ASD），有助于推动该领域的发展。
面部遮罩设计：遮罩面部区域避免唇部运动信息泄漏，确保学到的是纯手势信号。

局限与展望¶

训练数据以英语为主，跨语言/跨文化的手势理解能力未验证。
手势编码器使用 RGB 视频，计算开销大；未来可探索基于 2D/3D 关键点的轻量化输入。
当前仅考虑手部手势，未纳入头部动作、面部表情等其他非语言信号。
活跃说话人检测任务中，JEGAL 仍落后于 GestSync，说明帧级同步对齐能力仍有提升空间。

评分¶

新颖性: ⭐⭐⭐⭐ 三模态共语手势理解的系统性框架，词耦合损失设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 三个新base任务和消融研究覆盖全面，语音 vs 文本的深入分析有洞察
写作质量: ⭐⭐⭐⭐⭐ 论文动机清晰，图示出色，分析深入
价值: ⭐⭐⭐⭐ 为共语手势理解开辟了系统性研究方向，三个基准对社区有持续价值