跳转至

MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models

会议: NeurIPS 2025
arXiv: 2502.16671
代码: GitHub (有)
领域: Video Understanding
关键词: 非语言社交智能, 哑剧理解, 视频问答, 多模态基础模型, 社会认知

一句话总结

构建首个基于哑剧视频的非语言社交推理基准 MimeQA,包含101个视频和806个QA对,覆盖三层问题层次(具象识别→场景理解→全局推理),揭示当前VideoLLMs在非语言社交理解上的严重不足(20-30% vs 人类86%)。

研究背景与动机

领域现状: 社交智能AI日益重要,当前研究主要集中在纯语言数据和任务(如社交对话、问答),或以语言为主导的多模态数据。VideoLLMs在Ego4D、Video-MME等基准上表现优异。

现有痛点: (i) 现有基准严重依赖语言模态,非语言信号(肢体语言、手势、表情)被当作次要信息;(ii) 这导致模型在语言理解上进步但在非语言社交理解上严重不足;(iii) 部分基准甚至在无视频输入时也能取得不错成绩,说明存在严重的语言偏差。

核心矛盾: 真正的社交智能需要同时理解语言和非语言信号,但当前模型和评估体系都过度偏向语言,缺乏对非语言社交认知的有效测量手段。

本文目标: 如何系统评估AI模型的非语言社交推理能力?

切入角度: 利用哑剧视频——这种完全不依赖语言,纯粹通过手势和动作传达信息的艺术形式——作为评估载体。

核心 idea: 哑剧表演完全排除了语言线索,迫使AI模型纯粹依靠对人体动作、手势和社交互动的理解来回答问题。

方法详解

整体框架

MimeQA 是一个开放式视频问答基准,从YouTube收集221个哑剧视频(筛选后101个),经过严格的标注和验证流程生成806个QA对。问题按三个时间尺度层次组织,从底层视觉识别到高层社会认知逐步递进。

关键设计

  1. 三层问题层次结构:

    • 功能: 将非语言社交推理分解为从具象到抽象的三个评估层
    • 为什么: 认知科学表明,非语言理解涉及感知→情境解读→全局推理的渐进过程
    • 怎么做:
      • 具象识别 (Grounding the Imagined): 识别哑剧演员通过手势/动作模拟的想象物体或活动(如拍打翅膀→飞鸟)
      • 场景级: 时序推理(因果事件链)、情感识别(非语言情绪线索)、意图与行为理解(推断动作背后的目标和动机)
      • 全局级: 工作记忆(跨场景信息整合)、社会判断(行为与社会规范的对比)、心智理论(推断信念、目标和视角)
    • 区别: 首次系统化地将认知发展研究引入AI基准设计,覆盖从感知到高阶认知的完整链条
  2. 数据集构建流水线:

    • 视频收集: 从YouTube搜索含"mime"关键词的视频,限制1-10分钟,仅选Creative Commons许可
    • 标注: 两名熟悉问题层次的标注者为每个视频生成约6个场景问题、4个全局问题和相关数量的具象问题,附带时间戳
    • 验证: 第二人独立观看视频作答并与标注对比,97.58%的一致率
    • 筛选标准: 排除无剧情、太难理解或含语言的视频,移除有争议的问题
  3. 评估设计:

    • 功能: 使用GPT-4o作为LLM-as-a-judge自动评估开放式回答
    • 怎么做: 判断模型回答与标注答案是否语义等价
    • 验证: 在352个问题样本上自动评分器与人类评分一致率92.0%

损失函数 / 训练策略

  • MimeQA主要是评估基准,不涉及训练损失
  • 微调实验:在80% MimeQA上微调Qwen2.5-VL-72B,提升全局推理但具象识别仍差
  • 跨数据集迁移:5-fold交叉验证评估MimeQA与Social-IQ 2.0、IntentQA之间的可迁移性

实验关键数据

主实验

各模型在MimeQA上的准确率 (VL=视频+文本, L=仅文本):

模型 Avg(VL) GI 意图 情感 时序 ToM 社会判断 工作记忆
Gemini-2.5-Pro 38.3 28.4 31.6 43.7 28.6 54.7 51.7 39.0
GPT-4o 31.3 19.0 28.5 29.9 30.6 45.3 43.7 35.1
Gemini-1.5-Pro 30.6 20.4 22.8 34.5 30.6 42.7 40.2 33.7
VideoLLaMA3 22.2 7.3 13.3 34.5 13.3 41.3 31.0 22.1
Qwen2.5-VL 20.1 6.6 15.8 23.6 14.3 38.7 33.3 19.4
人类 86.0 89.8 87.3 83.9 88.8 93.3 80.5 76.6

消融实验

微调效果 (Qwen2.5-VL-72B):

条件 Avg Grounding 意图 ToM 工作记忆
Base 22.5 7.1 18.8 44.4 23.5
Fine-tuned 26.6 7.1 28.1 55.6 47.1

跨数据集迁移 (Qwen2.5-VL-7B):

训练集 → 测试集 MimeQA Test Social-IQ Test IntentQA Test
MimeQA训练 +3.5% +1.2% +2.6%
Social-IQ训练 +0.4% +1.0% N/A
IntentQA训练 +1.1% N/A +3.7%

含/不含文本的视频对比:

模型 含文本视频 无文本视频
GPT-4o 37.9% 24.5%
Gemini-2.5-Pro 44.8% 31.8%
Qwen2.5-VL 24.6% 15.5%

关键发现

  • 所有VideoLLMs远低于人类水平(最佳38.3% vs 86.0%),差距高达48个百分点
  • 开源模型与闭源模型差距显著:开源约20-22%,GPT-4o/Gemini-2.5-Pro达30-38%
  • 具象识别 (Grounding) 是最困难的类别,最佳模型仅28.4%(人类89.8%)
  • 全局级问题的文本偏差严重——部分模型不看视频在社会判断上也能达40%+
  • MimeQA学到的技能有良好迁移性:MimeQA微调在Social-IQ上提升1.2%,接近Social-IQ自身微调的1.0%
  • 反向迁移极差:Social-IQ微调在MimeQA上仅提升0.4%,说明MimeQA捕获了独特的非语言认知
  • 姿态识别(PoseC3D)辅助输入改善了具象识别(2.33%→6.98%),但损害高层推理

亮点与洞察

  • 问题定义独到: 选择哑剧作为评估载体的创意极佳——天然排除语言线索,直击核心问题
  • 认知科学理论基础: 问题层次设计植根于发展心理学和认知科学文献,而非随意分类
  • 揭示了关键盲点: 模型对"想象物体"的理解极差(6-28%),这是人类沟通的基础能力
  • 迁移实验设计精巧: 不对称迁移结果(MimeQA→Social-IQ有效,反向无效)有力论证了基准的独特价值
  • 语言偏差分析深入: 含文本 vs 无文本视频对比、添加标题对比等实验清晰揭示了模型对语言的过度依赖

局限与展望

  • 数据集规模较小(仅101个视频、806个QA对),可能限制统计显著性
  • 主要反映西方文化的哑剧传统,跨文化推广性有限
  • 人类标注可能有主观偏差,部分哑剧表演确实存在多义性
  • 开放式QA格式依赖LLM评分器,引入评估噪声
  • 未尝试从哑剧视频生成训练数据来大幅提升模型性能
  • 仅评估了基于frame采样的方法,对原生视频输入模型的评估不够
  • PoseC3D辅助方案的trade-off表明需要更精细的多模态融合策略

相关工作与启发

  • 与Social-IQ 2.0、IntentQA互补,专注于纯非语言场景
  • 与mimetics数据集(评估动作识别)不同,MimeQA全面评估社交认知
  • 启发了"语言无关的多模态社交智能"这一新研究方向
  • 哑剧与手语研究、跨文化沟通、自闭症辅助等应用场景关联密切
  • 对VideoLLM的训练策略有重要启示:需要更多非语言标注的视频数据

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次利用哑剧评估非语言社交智能,问题定义和数据源选择极具创意
  • 实验充分度: ⭐⭐⭐⭐ 多模型评估 + 微调 + 跨数据集迁移 + 详细错误分析,但数据集偏小
  • 写作质量: ⭐⭐⭐⭐⭐ 叙事流畅,理论基础扎实,错误分析生动有说服力
  • 价值: ⭐⭐⭐⭐⭐ 开辟了非语言社交AI的全新评估维度,对推动真正的社交智能有深远意义

相关论文