跳转至

Sign Language Recognition in the Age of LLMs

会议: CVPR 2026
arXiv: 2604.11225
代码: https://github.com/VaJavorek/WLASL_LLM
领域: 人体理解
关键词: 手语识别, 视觉语言模型, 零样本, 美国手语, 基准测试

一句话总结

首个系统评估现代 VLM 在零样本孤立手语识别(ISLR)上能力的研究,发现开源 VLM 远落后于专用分类器,但大型商用模型(GPT-5)展现出令人惊讶的潜力。

研究背景与动机

领域现状:手语识别传统依赖任务专属的监督学习,需要大量标注数据和专用架构。同时 VLM 在多模态推理上展示了强大能力,但在手语上的应用几乎未被探索。

现有痛点:(1) 监督方法受限于标注数据和跨签名者/环境泛化;(2) VLM 主要在自然图像/视频上评估,手语的细粒度手势动作未被覆盖;(3) 缺乏 VLM 零样本手语识别的系统基准。

核心矛盾:VLM 通用性很强但未专门训练手语数据,手语的高维时空复杂性和微妙语言结构是否超出了 VLM 的零样本能力范围?

核心 idea:回到 ISLR 这个受控设置,系统评估多种 VLM 在零样本下的手语识别能力,分析提示策略和模型规模的影响。

方法详解

整体框架

在 WLASL300 基准(300 个手语词汇)上评估多种开源和商用 VLM → 三种评估范式:(1) 标准多类分类,(2) 零样本开放集预测,(3) 零样本二元分类(判断视频中的手语是否为指定词汇)→ 分析提示策略、帧采样、模型规模的影响。

关键设计

  1. 系统性多模型评估:

    • 功能:建立 VLM 零样本 ISLR 的基准线
    • 核心思路:评估 LLaVA-NeXT-Video、InternVL3.5、Qwen2.5/3-VL、BAGEL、GPT-5、Gemini 等模型,统一提示模板和帧采样策略
    • 设计动机:为手语AI研究提供"VLM 能做到什么程度"的清晰参考
  2. 多层级提示策略:

    • 功能:探索信息量对零样本性能的影响
    • 核心思路:从完全开放 → 指定数据集 → 提供候选词汇列表,逐步约束输出空间。另外测试二元分类(给词汇描述判断是否匹配)和同义词容忍评估
    • 设计动机:VLM 的输出空间远大于分类器的固定类别数,约束输出空间可能显著影响性能
  3. 同义词感知评估:

    • 功能:更公平地评估 VLM 的语义理解
    • 核心思路:从 WordNet 获取每个 ground truth 词汇的同义词列表,预测同义词也视为正确
    • 设计动机:VLM 可能输出语义正确但用词不同的预测(如 "happy" vs "glad")

损失函数 / 训练策略

纯零样本评估,无训练。

实验关键数据

主实验

模型 Top-1 Top-1+同义词 说明
专用 SOTA (DSLNet) 89.97% - 有监督训练
GPT-5 (64帧) 14.67% 17.96% 商用最佳
Qwen3-VL-30B 2.40% 3.59% 开源最佳
LLaVA-NeXT-7B 0.30% 0.45% 开源最差

消融实验

提示策略 GPT-5 准确率 说明
开放集 14.67% 无约束
提供数据集名 略提升 约束输出空间
提供候选列表 显著提升 最强约束
二元分类 ~30% 精确度 部分视觉-语义对齐存在

关键发现

  • 开源 VLM 在零样本 ISLR 上几乎完全失败(< 3%),远低于专用分类器
  • GPT-5 的表现远超开源模型,说明模型规模和训练数据多样性至关重要
  • 二元分类实验表明 VLM 确实捕获了部分手语-文本语义对齐
  • 某些模型(如 Nemotron)会诚实地回答"不知道",拉低了测量性能但反映了真实能力

亮点与洞察

  • 诚实的负面结果:不回避 VLM 在手语上的严重不足,为社区提供了现实基准
  • 规模效应明显:GPT-5 vs 开源模型的巨大差距说明手语可能需要更多视觉-运动预训练数据

局限与展望

  • 仅测试 WLASL300,未覆盖更大词汇或连续手语
  • 商用 API 的延迟影响大规模评估可行性
  • 未来可探索少样本微调 VLM 或专门的手语视觉编码器

相关工作与启发

  • vs 传统 ISLR: ST-GCN 等专用方法在有监督下表现极好,说明任务特定训练仍不可替代
  • vs Elysium/ChatTracker: 这些 MLLM 跟踪器也需要微调,纯零样本不足

评分

  • 新颖性: ⭐⭐⭐ 评估研究本身不算新方法但填补了空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多提示、多评估范式非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
  • 价值: ⭐⭐⭐⭐ 为手语 AI 研究提供了重要的 VLM 基准线

相关论文