Sign Language Recognition in the Age of LLMs¶
会议: CVPR 2026
arXiv: 2604.11225
代码: https://github.com/VaJavorek/WLASL_LLM
领域: 人体理解
关键词: 手语识别, 视觉语言模型, 零样本, 美国手语, 基准测试
一句话总结¶
首个系统评估现代 VLM 在零样本孤立手语识别(ISLR)上能力的研究,发现开源 VLM 远落后于专用分类器,但大型商用模型(GPT-5)展现出令人惊讶的潜力。
研究背景与动机¶
领域现状:手语识别传统依赖任务专属的监督学习,需要大量标注数据和专用架构。同时 VLM 在多模态推理上展示了强大能力,但在手语上的应用几乎未被探索。
现有痛点:(1) 监督方法受限于标注数据和跨签名者/环境泛化;(2) VLM 主要在自然图像/视频上评估,手语的细粒度手势动作未被覆盖;(3) 缺乏 VLM 零样本手语识别的系统基准。
核心矛盾:VLM 通用性很强但未专门训练手语数据,手语的高维时空复杂性和微妙语言结构是否超出了 VLM 的零样本能力范围?
核心 idea:回到 ISLR 这个受控设置,系统评估多种 VLM 在零样本下的手语识别能力,分析提示策略和模型规模的影响。
方法详解¶
整体框架¶
在 WLASL300 基准(300 个手语词汇)上评估多种开源和商用 VLM → 三种评估范式:(1) 标准多类分类,(2) 零样本开放集预测,(3) 零样本二元分类(判断视频中的手语是否为指定词汇)→ 分析提示策略、帧采样、模型规模的影响。
关键设计¶
-
系统性多模型评估:
- 功能:建立 VLM 零样本 ISLR 的基准线
- 核心思路:评估 LLaVA-NeXT-Video、InternVL3.5、Qwen2.5/3-VL、BAGEL、GPT-5、Gemini 等模型,统一提示模板和帧采样策略
- 设计动机:为手语AI研究提供"VLM 能做到什么程度"的清晰参考
-
多层级提示策略:
- 功能:探索信息量对零样本性能的影响
- 核心思路:从完全开放 → 指定数据集 → 提供候选词汇列表,逐步约束输出空间。另外测试二元分类(给词汇描述判断是否匹配)和同义词容忍评估
- 设计动机:VLM 的输出空间远大于分类器的固定类别数,约束输出空间可能显著影响性能
-
同义词感知评估:
- 功能:更公平地评估 VLM 的语义理解
- 核心思路:从 WordNet 获取每个 ground truth 词汇的同义词列表,预测同义词也视为正确
- 设计动机:VLM 可能输出语义正确但用词不同的预测(如 "happy" vs "glad")
损失函数 / 训练策略¶
纯零样本评估,无训练。
实验关键数据¶
主实验¶
| 模型 | Top-1 | Top-1+同义词 | 说明 |
|---|---|---|---|
| 专用 SOTA (DSLNet) | 89.97% | - | 有监督训练 |
| GPT-5 (64帧) | 14.67% | 17.96% | 商用最佳 |
| Qwen3-VL-30B | 2.40% | 3.59% | 开源最佳 |
| LLaVA-NeXT-7B | 0.30% | 0.45% | 开源最差 |
消融实验¶
| 提示策略 | GPT-5 准确率 | 说明 |
|---|---|---|
| 开放集 | 14.67% | 无约束 |
| 提供数据集名 | 略提升 | 约束输出空间 |
| 提供候选列表 | 显著提升 | 最强约束 |
| 二元分类 | ~30% 精确度 | 部分视觉-语义对齐存在 |
关键发现¶
- 开源 VLM 在零样本 ISLR 上几乎完全失败(< 3%),远低于专用分类器
- GPT-5 的表现远超开源模型,说明模型规模和训练数据多样性至关重要
- 二元分类实验表明 VLM 确实捕获了部分手语-文本语义对齐
- 某些模型(如 Nemotron)会诚实地回答"不知道",拉低了测量性能但反映了真实能力
亮点与洞察¶
- 诚实的负面结果:不回避 VLM 在手语上的严重不足,为社区提供了现实基准
- 规模效应明显:GPT-5 vs 开源模型的巨大差距说明手语可能需要更多视觉-运动预训练数据
局限与展望¶
- 仅测试 WLASL300,未覆盖更大词汇或连续手语
- 商用 API 的延迟影响大规模评估可行性
- 未来可探索少样本微调 VLM 或专门的手语视觉编码器
相关工作与启发¶
- vs 传统 ISLR: ST-GCN 等专用方法在有监督下表现极好,说明任务特定训练仍不可替代
- vs Elysium/ChatTracker: 这些 MLLM 跟踪器也需要微调,纯零样本不足
评分¶
- 新颖性: ⭐⭐⭐ 评估研究本身不算新方法但填补了空白
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多提示、多评估范式非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
- 价值: ⭐⭐⭐⭐ 为手语 AI 研究提供了重要的 VLM 基准线
相关论文¶
- [ACL 2025] Argument Mining in the Age of Large Language Models
- [ICML 2025] Theoretical Limitations of Ensembles in the Age of Overparameterization
- [ACL 2025] NeKo: Cross-Modality Post-Recognition Error Correction with Tasks-Guided Mixture-of-Experts Language Model
- [CVPR 2026] CoPS: Conditional Prompt Synthesis for Zero-Shot Anomaly Detection
- [CVPR 2026] Perception Programs: Unlocking Visual Tool Reasoning in Language Models