MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models¶

会议: NeurIPS 2025
arXiv: 2502.16671
代码: GitHub (有)
领域: Video Understanding
关键词: 非语言社交智能, 哑剧理解, 视频问答, 多模态基础模型, 社会认知

一句话总结¶

构建首个基于哑剧视频的非语言社交推理基准 MimeQA，包含101个视频和806个QA对，覆盖三层问题层次（具象识别→场景理解→全局推理），揭示当前VideoLLMs在非语言社交理解上的严重不足（20-30% vs 人类86%）。

研究背景与动机¶

领域现状: 社交智能AI日益重要，当前研究主要集中在纯语言数据和任务（如社交对话、问答），或以语言为主导的多模态数据。VideoLLMs在Ego4D、Video-MME等基准上表现优异。

现有痛点: (i) 现有基准严重依赖语言模态，非语言信号（肢体语言、手势、表情）被当作次要信息；(ii) 这导致模型在语言理解上进步但在非语言社交理解上严重不足；(iii) 部分基准甚至在无视频输入时也能取得不错成绩，说明存在严重的语言偏差。

核心矛盾: 真正的社交智能需要同时理解语言和非语言信号，但当前模型和评估体系都过度偏向语言，缺乏对非语言社交认知的有效测量手段。

本文目标: 如何系统评估AI模型的非语言社交推理能力？

切入角度: 利用哑剧视频——这种完全不依赖语言，纯粹通过手势和动作传达信息的艺术形式——作为评估载体。

核心 idea: 哑剧表演完全排除了语言线索，迫使AI模型纯粹依靠对人体动作、手势和社交互动的理解来回答问题。

方法详解¶

整体框架¶

MimeQA 是一个开放式视频问答基准，从YouTube收集221个哑剧视频（筛选后101个），经过严格的标注和验证流程生成806个QA对。问题按三个时间尺度层次组织，从底层视觉识别到高层社会认知逐步递进。

关键设计¶

三层问题层次结构:
- 功能: 将非语言社交推理分解为从具象到抽象的三个评估层
- 为什么: 认知科学表明，非语言理解涉及感知→情境解读→全局推理的渐进过程
- 怎么做:
  - 具象识别 (Grounding the Imagined): 识别哑剧演员通过手势/动作模拟的想象物体或活动（如拍打翅膀→飞鸟）
  - 场景级: 时序推理（因果事件链）、情感识别（非语言情绪线索）、意图与行为理解（推断动作背后的目标和动机）
  - 全局级: 工作记忆（跨场景信息整合）、社会判断（行为与社会规范的对比）、心智理论（推断信念、目标和视角）
- 区别: 首次系统化地将认知发展研究引入AI基准设计，覆盖从感知到高阶认知的完整链条
数据集构建流水线:
- 视频收集: 从YouTube搜索含"mime"关键词的视频，限制1-10分钟，仅选Creative Commons许可
- 标注: 两名熟悉问题层次的标注者为每个视频生成约6个场景问题、4个全局问题和相关数量的具象问题，附带时间戳
- 验证: 第二人独立观看视频作答并与标注对比，97.58%的一致率
- 筛选标准: 排除无剧情、太难理解或含语言的视频，移除有争议的问题
评估设计:
- 功能: 使用GPT-4o作为LLM-as-a-judge自动评估开放式回答
- 怎么做: 判断模型回答与标注答案是否语义等价
- 验证: 在352个问题样本上自动评分器与人类评分一致率92.0%

损失函数 / 训练策略¶

MimeQA主要是评估基准，不涉及训练损失
微调实验：在80% MimeQA上微调Qwen2.5-VL-72B，提升全局推理但具象识别仍差
跨数据集迁移：5-fold交叉验证评估MimeQA与Social-IQ 2.0、IntentQA之间的可迁移性

实验关键数据¶

主实验¶

各模型在MimeQA上的准确率 (VL=视频+文本, L=仅文本):

模型	Avg(VL)	GI	意图	情感	时序	ToM	社会判断	工作记忆
Gemini-2.5-Pro	38.3	28.4	31.6	43.7	28.6	54.7	51.7	39.0
GPT-4o	31.3	19.0	28.5	29.9	30.6	45.3	43.7	35.1
Gemini-1.5-Pro	30.6	20.4	22.8	34.5	30.6	42.7	40.2	33.7
VideoLLaMA3	22.2	7.3	13.3	34.5	13.3	41.3	31.0	22.1
Qwen2.5-VL	20.1	6.6	15.8	23.6	14.3	38.7	33.3	19.4
人类	86.0	89.8	87.3	83.9	88.8	93.3	80.5	76.6

消融实验¶

微调效果 (Qwen2.5-VL-72B):

条件	Avg	Grounding	意图	ToM	工作记忆
Base	22.5	7.1	18.8	44.4	23.5
Fine-tuned	26.6	7.1	28.1	55.6	47.1

跨数据集迁移 (Qwen2.5-VL-7B):

训练集 → 测试集	MimeQA Test	Social-IQ Test	IntentQA Test
MimeQA训练	+3.5%	+1.2%	+2.6%
Social-IQ训练	+0.4%	+1.0%	N/A
IntentQA训练	+1.1%	N/A	+3.7%

含/不含文本的视频对比:

模型	含文本视频	无文本视频
GPT-4o	37.9%	24.5%
Gemini-2.5-Pro	44.8%	31.8%
Qwen2.5-VL	24.6%	15.5%

关键发现¶

所有VideoLLMs远低于人类水平（最佳38.3% vs 86.0%），差距高达48个百分点
开源模型与闭源模型差距显著：开源约20-22%，GPT-4o/Gemini-2.5-Pro达30-38%
具象识别 (Grounding) 是最困难的类别，最佳模型仅28.4%（人类89.8%）
全局级问题的文本偏差严重——部分模型不看视频在社会判断上也能达40%+
MimeQA学到的技能有良好迁移性：MimeQA微调在Social-IQ上提升1.2%，接近Social-IQ自身微调的1.0%
反向迁移极差：Social-IQ微调在MimeQA上仅提升0.4%，说明MimeQA捕获了独特的非语言认知
姿态识别(PoseC3D)辅助输入改善了具象识别（2.33%→6.98%），但损害高层推理

亮点与洞察¶

问题定义独到: 选择哑剧作为评估载体的创意极佳——天然排除语言线索，直击核心问题
认知科学理论基础: 问题层次设计植根于发展心理学和认知科学文献，而非随意分类
揭示了关键盲点: 模型对"想象物体"的理解极差（6-28%），这是人类沟通的基础能力
迁移实验设计精巧: 不对称迁移结果（MimeQA→Social-IQ有效，反向无效）有力论证了基准的独特价值
语言偏差分析深入: 含文本 vs 无文本视频对比、添加标题对比等实验清晰揭示了模型对语言的过度依赖

局限与展望¶

数据集规模较小（仅101个视频、806个QA对），可能限制统计显著性
主要反映西方文化的哑剧传统，跨文化推广性有限
人类标注可能有主观偏差，部分哑剧表演确实存在多义性
开放式QA格式依赖LLM评分器，引入评估噪声
未尝试从哑剧视频生成训练数据来大幅提升模型性能
仅评估了基于frame采样的方法，对原生视频输入模型的评估不够
PoseC3D辅助方案的trade-off表明需要更精细的多模态融合策略

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次利用哑剧评估非语言社交智能，问题定义和数据源选择极具创意
实验充分度: ⭐⭐⭐⭐ 多模型评估 + 微调 + 跨数据集迁移 + 详细错误分析，但数据集偏小
写作质量: ⭐⭐⭐⭐⭐ 叙事流畅，理论基础扎实，错误分析生动有说服力
价值: ⭐⭐⭐⭐⭐ 开辟了非语言社交AI的全新评估维度，对推动真正的社交智能有深远意义