Sign Language Recognition in the Age of LLMs¶

会议: CVPR 2026
arXiv: 2604.11225
代码: https://github.com/VaJavorek/WLASL_LLM
领域: 人体理解
关键词: 手语识别, 视觉语言模型, 零样本, 美国手语, 基准测试

一句话总结¶

首个系统评估现代 VLM 在零样本孤立手语识别（ISLR）上能力的研究，发现开源 VLM 远落后于专用分类器，但大型商用模型（GPT-5）展现出令人惊讶的潜力。

领域现状：手语识别传统依赖任务专属的监督学习，需要大量标注数据和专用架构。同时 VLM 在多模态推理上展示了强大能力，但在手语上的应用几乎未被探索。

现有痛点：(1) 监督方法受限于标注数据和跨签名者/环境泛化；(2) VLM 主要在自然图像/视频上评估，手语的细粒度手势动作未被覆盖；(3) 缺乏 VLM 零样本手语识别的系统基准。

核心矛盾：VLM 通用性很强但未专门训练手语数据，手语的高维时空复杂性和微妙语言结构是否超出了 VLM 的零样本能力范围？

核心 idea：回到 ISLR 这个受控设置，系统评估多种 VLM 在零样本下的手语识别能力，分析提示策略和模型规模的影响。

在 WLASL300 基准（300 个手语词汇）上评估多种开源和商用 VLM → 三种评估范式：(1) 标准多类分类，(2) 零样本开放集预测，(3) 零样本二元分类（判断视频中的手语是否为指定词汇）→ 分析提示策略、帧采样、模型规模的影响。

系统性多模型评估:
- 功能：建立 VLM 零样本 ISLR 的基准线
- 核心思路：评估 LLaVA-NeXT-Video、InternVL3.5、Qwen2.5/3-VL、BAGEL、GPT-5、Gemini 等模型，统一提示模板和帧采样策略
- 设计动机：为手语AI研究提供"VLM 能做到什么程度"的清晰参考
多层级提示策略:
- 功能：探索信息量对零样本性能的影响
- 核心思路：从完全开放 → 指定数据集 → 提供候选词汇列表，逐步约束输出空间。另外测试二元分类（给词汇描述判断是否匹配）和同义词容忍评估
- 设计动机：VLM 的输出空间远大于分类器的固定类别数，约束输出空间可能显著影响性能
同义词感知评估:
- 功能：更公平地评估 VLM 的语义理解
- 核心思路：从 WordNet 获取每个 ground truth 词汇的同义词列表，预测同义词也视为正确
- 设计动机：VLM 可能输出语义正确但用词不同的预测（如 "happy" vs "glad"）

纯零样本评估，无训练。

模型	Top-1	Top-1+同义词	说明
专用 SOTA (DSLNet)	89.97%	-	有监督训练
GPT-5 (64帧)	14.67%	17.96%	商用最佳
Qwen3-VL-30B	2.40%	3.59%	开源最佳
LLaVA-NeXT-7B	0.30%	0.45%	开源最差