EvSign: Sign Language Recognition and Translation with Streaming Events¶

会议: ECCV 2024 arXiv: 2407.12593 代码: 项目页领域: 人体理解 关键词: 手语识别, 手语翻译, 事件相机, 稀疏卷积, 时序建模

一句话总结¶

首次构建面向连续手语识别（CSLR）和手语翻译（SLT）任务的事件相机基准数据集 EvSign，并提出基于稀疏Transformer的高效框架，在仅0.34% FLOPs和44.2%参数量下达到与SOTA RGB方法可比或更优的性能。

研究背景与动机¶

手语是听障群体的重要沟通工具，基于视频的手语识别和翻译是重要的研究方向。现有方法面临以下挑战：

RGB传感器的固有缺陷：快速手部运动导致运动模糊、衣物纹理造成背景干扰、极端光照条件下信息退化
事件相机的天然优势：异步捕获亮度变化，时间分辨率极高（1MHz vs RGB 120Hz），高动态范围，低延迟——天然适合捕获动态手部运动
现有事件手语数据集的不足：
仅支持孤立手语识别（ISLR），不支持连续识别和翻译
词汇量极小（SL-Animals-DVS仅19词，EvASL仅56词）
传感器分辨率低（128×128）
现有方法未充分利用事件特性：直接用为RGB设计的网络（AlexNet、ResNet）处理事件数据，忽略了事件数据的稀疏性

方法详解¶

整体框架¶

方法包含两部分贡献：

A. EvSign 数据集：大规模中文手语事件基准 B. 高效Transformer框架：专门针对事件数据特性设计的SLR+SLT模型

整体流程：事件流 → 体素网格表示 → 稀疏卷积骨干 → 局部Token融合 → Gloss感知时序聚合 → 识别头/翻译头

关键设计¶

1. EvSign 数据集¶

采集设备：iniVation DVXplorer-S-Duo 双目相机（事件流640×480，RGB 480×320@25FPS）

语料来源：日常生活场景（购物、教育、医疗、旅游、社交），手语词汇源自中国国家手语词典和CSL-Daily

数据规模： - 6773个事件流视频（训练5570/开发553/测试650） - 1387个手语词汇（gloss），1947个中文词汇 - 9位专业聋人志愿者 - 总时长约8.5小时

标注流程：两步式标注——先由标注者在RGB视频中识别手语词汇，再由作者核对确保每个手语对应唯一gloss标注

相比现有数据集的优势：首个支持CSLR和SLT的事件数据集，词汇量远超同类（vs SL-Animals 19词, EvASL 56词），分辨率更高（640×480 vs 128×128）。

2. 稀疏骨干网络 (Sparse Backbone, SConv)¶

事件数据天然稀疏（仅编码运动区域），因此采用 ResNet18 架构的稀疏卷积网络处理体素网格表示： - 充分利用数据稀疏性大幅降低计算量 - 比普通卷积更好地保持特征级稀疏性，生成更锐利的边界 - 输出视觉Token集合 \(\mathbf{O}^v \in \mathbb{R}^{P \times C}\)

3. 局部Token融合 (Local Token Fusion, LTF)¶

对长视频时序建模前，先聚合局部运动信息并降低Token数量： - 两层结构，每层包含窗口多头自注意力（W-MSA）+ 最大池化 - 窗口大小 \(I\)，下采样比 \(\gamma=4\) - 公式：\(\mathbf{O}^f = \text{MaxPool}(\text{W-MSA}(\tilde{\mathbf{O}}^v) + \tilde{\mathbf{O}}^v)\) - 产生融合Token \(\mathbf{O}^f \in \mathbb{R}^{L \times C}\)，\(L = P/\gamma\)

4. Gloss感知时序聚合 (GATA)¶

核心时序建模模块，将时序信息解耦为gloss内和gloss间两级：

Gloss感知掩码注意力（GAMA）— gloss内聚合： - 使用交叉注意力从视觉Token \(\mathbf{O}^v\) 聚合信息到融合Token \(\mathbf{O}^f\) - 关键创新：引入gloss感知掩码 \(\mathbf{M} = \mathcal{N}(\rho) \odot \mathcal{N}(\delta)\) - \(\rho\)：特征空间相似度——同类Token具有高相关性表示 - \(\delta\)：时间空间约束——RBF核衡量伪时间戳距离，避免不同位置同类gloss间的错误聚合 - 公式：\(\text{GAMA}(\mathbf{Q}, \mathbf{K}, \mathbf{V}, \mathbf{M}) = \text{softmax}(\frac{\mathbf{QK}^T}{\sqrt{d}} \odot \mathbf{M})\mathbf{V}\)

gloss间时序聚合（IGTA）： - 标准多头自注意力建模全局运动连贯性 - 学习不同gloss之间的时序依赖

5. 任务头¶

识别头（RH）：全连接层+softmax，输出gloss序列概率，CTC loss监督
翻译头（TH）：自回归Transformer解码器，将gloss-aware tokens翻译为口语句子，交叉熵损失监督

损失函数 / 训练策略¶

SLR损失：\(\mathcal{L}_{SLR} = \lambda_{inter}\mathcal{L}_{inter} + \lambda_{final}\mathcal{L}_{final}\)（中间+最终两个CTC损失，权重均为1）

SLT损失：\(\mathcal{L}_{SLT} = \mathcal{L}_{SLR} + \lambda_{ce}\mathcal{L}_{ce}\)（额外加翻译的交叉熵损失）

训练细节：Adam优化器，余弦退火，初始学习率3e-5，batch size 2，200 epochs，单张RTX 3090。

实验关键数据¶

主实验 — 手语识别（WER↓）¶

方法	模态	PHOENIX14T Dev	PHOENIX14T Test	EvSign Dev	EvSign Test	FLOPs	Params
VAC	RGB	20.17	21.60	32.08	30.43	228.87G	31.64M
CorrNet	RGB	18.90	20.50	32.37	32.04	234.59G	32.04M
CorrNet	EV	24.57	24.55	29.98	29.95	244.63G	32.05M
Ours	EV	23.89	24.03	29.19	28.69	0.84G	14.19M

在EvSign上，事件方法全面优于RGB方法；本方法以0.34% FLOPs实现最低WER。

SLT结果（EvSign数据集，部分指标）¶

方法	模态	Dev ROUGE-L↑	Test ROUGE-L↑	Dev BLEU-4↑	Test BLEU-4↑
SLT	RGB	-	-	-	-
CorrNet+TH	EV	-	-	-	-
Ours	EV	最优	最优	竞争性	最优

在合成PHOENIX14T上，事件方法的SLT结果ROUGE比SLT(RGB)提升1.06%/0.89%（dev/test）。

消融实验¶

通过去除各模块验证设计有效性： - 稀疏骨干是效率提升的关键（计算量降低两个数量级） - LTF降低Token数量的同时保留局部运动信息 - GAMA中的特征相似度掩码和时间距离约束都对性能有贡献 - gloss间自注意力补充全局时序建模

关键发现¶

事件相机在真实数据上全面优于RGB：所有方法在EvSign上用事件流的WER都低于RGB（如CorrNet: 29.95 vs 32.04）
合成数据上事件优势不明显：因为PHOENIX14T视频质量差（模糊、低帧率），合成事件质量受限
极致效率：本方法仅用0.84G FLOPs/视频（vs CorrNet 244.63G），效率提升290倍
参数量节省：14.19M参数（44.2% of CorrNet），适合边缘部署
事件相机的隐私优势：仅捕获运动信息，不记录静态面部特征，天然保护隐私

亮点与洞察¶

首个CSLR+SLT事件基准：填补了事件手语领域からCISLR到连续识别和翻译的空白
稀疏性的双重利用：事件数据天然稀疏 → 稀疏卷积处理 → 局部融合降维 → 极低计算量
Gloss感知掩码的优雅设计：同时考虑特征相似度（哪些Token属于同一gloss）和时间距离（避免远距离同类误聚合），比简单全局注意力更合理
实用价值：事件相机的高时间分辨率+低延迟+隐私保护，非常适合可穿戴手语翻译设备

局限性 / 可改进方向¶

EvSign仅含中文手语，泛化到其他手语系统需要验证
9位手语者规模相对较小，个体差异覆盖有限
仍依赖gloss作为中间表示（Sign2Gloss2Text），未探索端到端gloss-free方案在事件数据上的潜力
体素网格表示丢失了事件的异步性，可考虑直接处理原始事件流的方法
合成事件质量受限于源RGB视频质量，需要更多真实高质量事件数据

评分¶

新颖性: ⭐⭐⭐⭐ — 首个CSLR+SLT事件基准+针对性框架设计
技术深度: ⭐⭐⭐⭐ — 稀疏骨干+GATA模块的设计环环相扣
实验充分度: ⭐⭐⭐⭐ — 合成+真实数据、SLR+SLT双任务、效率对比详尽
写作质量: ⭐⭐⭐⭐ — 动机清晰，图表直观，但SLT实验细节略显不足