ICCV 2025 人体理解手语表征学习自监督学习掩码自编码器骨架先验对抗风格损失字典检索

SignRep: Enhancing Self-Supervised Sign Representations¶

会议: ICCV 2025
arXiv: 2503.08529
领域: Sign Language Understanding / Self-Supervised Learning
关键词: 手语表征学习, 自监督学习, 掩码自编码器, 骨架先验, 对抗风格损失, 字典检索

一句话总结¶

提出 SignRep，一个可扩展的自监督手语表征学习框架，通过在 Masked Autoencoder 预训练中利用手语骨架先验、特征正则化和对抗式风格无关损失，仅用单一 RGB 模态即超越了复杂的多模态/多分支方法，在手语识别、字典检索和手语翻译三大任务上均取得 SOTA。

研究背景与动机¶

手语是全球数百万人的重要沟通方式，准确理解手语需要模型捕捉手形、动作、身体姿态和面部表情等复杂视觉特征。当前手语理解面临几个关键挑战：

标注数据稀缺：各国手语不同，收集标注数据成本高昂，现有数据集通常不超过 2000 个独立手语词

通用预训练模型域差距大：常用做法是用 Kinetics 等动作识别数据集预训练再微调，但手语视频的时间动态和精细手势与通用动作差异显著

多模态/多分支架构过于复杂：SOTA 方法通常需要 RGB+骨架多模态输入或多分支集成，计算复杂度高

骨架模型的局限：基于关键点的方法虽然内存高效，但通常不如 RGB 方法，且关键点容易缺失或误检

动机：能否设计一个简单的单模态自监督框架，在预训练阶段利用手语特有的先验知识（如骨架信息），但推理时不依赖关键点，从而兼得骨架先验的信息量和 RGB 方法的性能优势？

方法详解¶

整体框架¶

SignRep 基于 Hiera（分层视觉 Transformer）的 MAE 框架，核心改进在于： 1. 用手语先验重建替代像素重建作为预训练目标 2. 引入特征正则化（方差+协方差损失）增强表征质量 3. 添加对抗式风格无关损失过滤背景和外观干扰 4. 下游任务提出类概率分布损失利用检索信息提升识别

关键设计 1：手语先验（Sign Priors）¶

利用手语姿态估计模型提取六类先验作为预训练重建目标：

关键点先验： - 手部关键点 \(\mathcal{P}^{\{h,k\}} \in \mathbb{R}^{21 \times 3}\)：以手腕为原点归一化的 21 个 3D 关键点，捕捉手形和朝向 - 全身关键点 \(\mathcal{P}^{\{b,k\}} \in \mathbb{R}^{61 \times 3}\)：61 个 3D 关键点（双手 42 + 身体 19），捕捉手在身体空间中的位置

关节角度先验： - 手部关节角 \(\mathcal{P}^{\{h,a\}} \in \mathbb{R}^{41 \times 2}\)：41 个手部关节角度（sin/cos 编码） - 身体关节角 \(\mathcal{P}^{\{b,a\}} \in \mathbb{R}^{22 \times 2}\)：22 个上身关节角度

距离先验： - 指尖距离 \(\mathcal{P}^{\{h,d\}} \in \mathbb{R}^{5 \times 11 \times 3}\)：指尖到各关节的距离矩阵 - 手间交互距离 \(\mathcal{P}^{\{b,d\}} \in \mathbb{R}^{12 \times 22 \times 3}\)：双手与身体各部位的距离

活动先验 \(\mathcal{P}^{\{h,\text{act}\}} \in [0,1]\)：判断手是否处于活跃状态（通过手的位置和运动启发式规则）

关键设计 2：Sign Decoder（轻量手语解码器）¶

不同于标准 MAE 的像素重建解码器，SignRep 使用轻量化的手语解码器： 1. 对编码器输出 token 做平均池化得到 \(z^{\text{avg}} \in \mathbb{R}^{1 \times D}\) 2. 通过 1D 卷积 + GELU + 转置卷积上采样到 \(T\) 帧 3. 对每类先验各接一个全连接预测头

关键：解码器在下游任务时完全丢弃，推理只需编码器，不需要关键点提取。

关键设计 3：表征正则化¶

方差损失：鼓励表征在特征空间中分散分布，避免模式坍塌

\[\mathcal{L}_{\text{var}} = \sum_{j=1}^{D} \max(0, 1 - \sigma_j)\]

协方差损失：减少特征维度间的冗余相关性

\[\mathcal{L}_{\text{cov}} = \sum_{j \neq k} \mathcal{C}_{j,k}^2\]

关键设计 4：对抗式风格无关学习¶

目标是让编码器学习手语语义特征而过滤背景和外观信息。

方法：从同一视频裁剪两个片段 \(A_1, A_2\)（共享风格），从不同视频取片段 \(B\)（不同风格）。提取 gram 矩阵风格表征和内容表征，训练判别器区分匹配/不匹配对。然后用对抗损失迫使编码器产生风格无关的表征。

损失函数¶

预训练总损失：

\[\mathcal{L}_{\text{final}} = \mathcal{L}_{\text{recon}} + w_{\text{var}} \mathcal{L}_{\text{var}} + w_{\text{cov}} \mathcal{L}_{\text{cov}} + w_{\text{adv}} \mathcal{L}_{\text{adv}}\]

字典检索与类概率分布¶

检索：用滑动窗口提取片段表征，以手部活动度加权平均作为最终表征，用余弦相似度匹配。

类概率分布损失：从检索相似度矩阵构建类间概率分布 \(\phi \in \mathbb{R}^{C \times C}\)，在下游识别任务中作为 KL 散度正则项辅助训练。

实验关键数据¶

主实验：手语识别（WLASL2000）¶

方法	类型	Top-1 (Instance)	Top-5 (Instance)
ST-GCN	骨架	34.40	66.57
BEST	骨架	46.25	79.33
NLA-SLR (3-crop)	多模态	61.26	91.77
StepNet (R+F)	多模态	61.17	91.94
StepNet	RGB	56.89	88.64
SignRep	RGB	61.05	90.27

单模态 RGB 方法首次追平多模态集成方法，比最强单模态 StepNet 高 4.16%。

NMFs-CSL 中文手语识别¶

方法	Top-1	Top-5
StepNet (RGB)	77.2	92.5
NLA-SLR (多模态, 3-crop)	83.7	98.5
SignRep	84.1	98.8

超越所有方法（含多模态），比最强单模态高 ~7%。

ASL-Citizen 识别¶

方法	DCG	MRR	Rec@1	Rec@5
I3D	79.13	73.32	63.10	86.09
SignRep	90.84	88.05	81.37	96.11

Top-1 超 I3D 基线 18%。

字典检索（无下游训练）¶

特征	WLASL DCG	WLASL Rec@1	NMFs-CSL Rec@1
HieraMAE-Kinetics	13.21	2.08	3.96
HieraMAE-YTSL	14.06	2.57	7.57
手部关节角	30.61	9.42	18.13
SignRep (weighted)	57.93	29.92	63.04

检索性能是手部关节角特征的 3 倍以上，证明预训练表征的强大泛化能力。

消融实验¶

配置	WLASL 检索 DCG
仅角度先验 + 掩码	45.1
角度+关键点+距离 + 掩码	48.5
全先验 + 掩码 + var/cov	49.9
全先验 + 掩码 + var/cov + 对抗	50.7

去除掩码后检索性能显著下降（48.5 → 46.3），说明掩码学习对鲁棒表征至关重要。

手语翻译（作为冻结特征提取器）¶

骨干	Phoenix14T BLEU-4	CSL-Daily BLEU-4
DinoV2 (LoRA)	19.42	12.96
SignRep (frozen)	20.38	16.33

在 CSL-Daily 上 BLEU-4 提升 3.37，且 SignRep 完全冻结，省去了 LoRA 微调的计算开销。

亮点与洞察¶

"预训练时用骨架，推理时不用"的策略极为巧妙：将骨架信息作为自监督学习的目标而非输入，既获得了手语领域知识又避免了推理时对关键点提取器的依赖
六类先验设计全面：关键点（空间结构）+ 关节角（手指弯曲）+ 距离矩阵（手间交互）+ 活动检测，覆盖了手语表达的各个维度
对抗式风格无关学习有意义：手语理解中背景和签名者外观是主要干扰因素，通过对抗训练显式过滤可大幅提升泛化
类概率分布是优雅的检索-识别迁移：从无监督的检索相似度中提取类间关系，作为软标签辅助有监督识别
实验打击面广：识别（3 数据集）+ 检索（3 数据集）+ 翻译（3 数据集），且用一个冻结模型搞定，说服力极强

局限性¶

预训练依赖手语专用的姿态估计模型提取先验，低质量关键点可能引入噪声
在 YouTube-SL-25 上预训练，主要覆盖西方手语，对其他手语文化的泛化能力未知
仅关注孤立手语词，对连续手语（句子级别）的建模有限
活动先验的启发式规则较简单，可能无法处理所有边界情况
与 NLA-SLR 在 WLASL2000 上差距不大，需要更多数据集验证优势

评分¶

新颖性: ★★★★☆ — 将骨架先验融入 MAE 预训练的思路新颖，六类先验的系统设计和风格对抗学习有巧思
技术深度: ★★★★☆ — 先验设计细致，检索→识别的类概率分布迁移有理论优雅性
实验质量: ★★★★★ — 三大任务、九个数据集配置、充分消融，单模态超多模态有说服力
实用性: ★★★★★ — 单一 RGB 模型、推理时不需骨架提取、可作冻结特征，高度实用
表达清晰度: ★★★★☆ — 整体清晰，但先验定义部分符号较多，初读有一定门槛