MimeQA: Towards Socially-Intelligent Nonverbal Foundation Models¶
会议: NeurIPS 2025
arXiv: 2502.16671
代码: GitHub (有)
领域: Video Understanding
关键词: 非语言社交智能, 哑剧理解, 视频问答, 多模态基础模型, 社会认知
一句话总结¶
构建首个基于哑剧视频的非语言社交推理基准 MimeQA,包含101个视频和806个QA对,覆盖三层问题层次(具象识别→场景理解→全局推理),揭示当前VideoLLMs在非语言社交理解上的严重不足(20-30% vs 人类86%)。
研究背景与动机¶
领域现状: 社交智能AI日益重要,当前研究主要集中在纯语言数据和任务(如社交对话、问答),或以语言为主导的多模态数据。VideoLLMs在Ego4D、Video-MME等基准上表现优异。
现有痛点: (i) 现有基准严重依赖语言模态,非语言信号(肢体语言、手势、表情)被当作次要信息;(ii) 这导致模型在语言理解上进步但在非语言社交理解上严重不足;(iii) 部分基准甚至在无视频输入时也能取得不错成绩,说明存在严重的语言偏差。
核心矛盾: 真正的社交智能需要同时理解语言和非语言信号,但当前模型和评估体系都过度偏向语言,缺乏对非语言社交认知的有效测量手段。
本文目标: 如何系统评估AI模型的非语言社交推理能力?
切入角度: 利用哑剧视频——这种完全不依赖语言,纯粹通过手势和动作传达信息的艺术形式——作为评估载体。
核心 idea: 哑剧表演完全排除了语言线索,迫使AI模型纯粹依靠对人体动作、手势和社交互动的理解来回答问题。
方法详解¶
整体框架¶
MimeQA 是一个开放式视频问答基准,从YouTube收集221个哑剧视频(筛选后101个),经过严格的标注和验证流程生成806个QA对。问题按三个时间尺度层次组织,从底层视觉识别到高层社会认知逐步递进。
关键设计¶
-
三层问题层次结构:
- 功能: 将非语言社交推理分解为从具象到抽象的三个评估层
- 为什么: 认知科学表明,非语言理解涉及感知→情境解读→全局推理的渐进过程
- 怎么做:
- 具象识别 (Grounding the Imagined): 识别哑剧演员通过手势/动作模拟的想象物体或活动(如拍打翅膀→飞鸟)
- 场景级: 时序推理(因果事件链)、情感识别(非语言情绪线索)、意图与行为理解(推断动作背后的目标和动机)
- 全局级: 工作记忆(跨场景信息整合)、社会判断(行为与社会规范的对比)、心智理论(推断信念、目标和视角)
- 区别: 首次系统化地将认知发展研究引入AI基准设计,覆盖从感知到高阶认知的完整链条
-
数据集构建流水线:
- 视频收集: 从YouTube搜索含"mime"关键词的视频,限制1-10分钟,仅选Creative Commons许可
- 标注: 两名熟悉问题层次的标注者为每个视频生成约6个场景问题、4个全局问题和相关数量的具象问题,附带时间戳
- 验证: 第二人独立观看视频作答并与标注对比,97.58%的一致率
- 筛选标准: 排除无剧情、太难理解或含语言的视频,移除有争议的问题
-
评估设计:
- 功能: 使用GPT-4o作为LLM-as-a-judge自动评估开放式回答
- 怎么做: 判断模型回答与标注答案是否语义等价
- 验证: 在352个问题样本上自动评分器与人类评分一致率92.0%
损失函数 / 训练策略¶
- MimeQA主要是评估基准,不涉及训练损失
- 微调实验:在80% MimeQA上微调Qwen2.5-VL-72B,提升全局推理但具象识别仍差
- 跨数据集迁移:5-fold交叉验证评估MimeQA与Social-IQ 2.0、IntentQA之间的可迁移性
实验关键数据¶
主实验¶
各模型在MimeQA上的准确率 (VL=视频+文本, L=仅文本):
| 模型 | Avg(VL) | GI | 意图 | 情感 | 时序 | ToM | 社会判断 | 工作记忆 |
|---|---|---|---|---|---|---|---|---|
| Gemini-2.5-Pro | 38.3 | 28.4 | 31.6 | 43.7 | 28.6 | 54.7 | 51.7 | 39.0 |
| GPT-4o | 31.3 | 19.0 | 28.5 | 29.9 | 30.6 | 45.3 | 43.7 | 35.1 |
| Gemini-1.5-Pro | 30.6 | 20.4 | 22.8 | 34.5 | 30.6 | 42.7 | 40.2 | 33.7 |
| VideoLLaMA3 | 22.2 | 7.3 | 13.3 | 34.5 | 13.3 | 41.3 | 31.0 | 22.1 |
| Qwen2.5-VL | 20.1 | 6.6 | 15.8 | 23.6 | 14.3 | 38.7 | 33.3 | 19.4 |
| 人类 | 86.0 | 89.8 | 87.3 | 83.9 | 88.8 | 93.3 | 80.5 | 76.6 |
消融实验¶
微调效果 (Qwen2.5-VL-72B):
| 条件 | Avg | Grounding | 意图 | ToM | 工作记忆 |
|---|---|---|---|---|---|
| Base | 22.5 | 7.1 | 18.8 | 44.4 | 23.5 |
| Fine-tuned | 26.6 | 7.1 | 28.1 | 55.6 | 47.1 |
跨数据集迁移 (Qwen2.5-VL-7B):
| 训练集 → 测试集 | MimeQA Test | Social-IQ Test | IntentQA Test |
|---|---|---|---|
| MimeQA训练 | +3.5% | +1.2% | +2.6% |
| Social-IQ训练 | +0.4% | +1.0% | N/A |
| IntentQA训练 | +1.1% | N/A | +3.7% |
含/不含文本的视频对比:
| 模型 | 含文本视频 | 无文本视频 |
|---|---|---|
| GPT-4o | 37.9% | 24.5% |
| Gemini-2.5-Pro | 44.8% | 31.8% |
| Qwen2.5-VL | 24.6% | 15.5% |
关键发现¶
- 所有VideoLLMs远低于人类水平(最佳38.3% vs 86.0%),差距高达48个百分点
- 开源模型与闭源模型差距显著:开源约20-22%,GPT-4o/Gemini-2.5-Pro达30-38%
- 具象识别 (Grounding) 是最困难的类别,最佳模型仅28.4%(人类89.8%)
- 全局级问题的文本偏差严重——部分模型不看视频在社会判断上也能达40%+
- MimeQA学到的技能有良好迁移性:MimeQA微调在Social-IQ上提升1.2%,接近Social-IQ自身微调的1.0%
- 反向迁移极差:Social-IQ微调在MimeQA上仅提升0.4%,说明MimeQA捕获了独特的非语言认知
- 姿态识别(PoseC3D)辅助输入改善了具象识别(2.33%→6.98%),但损害高层推理
亮点与洞察¶
- 问题定义独到: 选择哑剧作为评估载体的创意极佳——天然排除语言线索,直击核心问题
- 认知科学理论基础: 问题层次设计植根于发展心理学和认知科学文献,而非随意分类
- 揭示了关键盲点: 模型对"想象物体"的理解极差(6-28%),这是人类沟通的基础能力
- 迁移实验设计精巧: 不对称迁移结果(MimeQA→Social-IQ有效,反向无效)有力论证了基准的独特价值
- 语言偏差分析深入: 含文本 vs 无文本视频对比、添加标题对比等实验清晰揭示了模型对语言的过度依赖
局限与展望¶
- 数据集规模较小(仅101个视频、806个QA对),可能限制统计显著性
- 主要反映西方文化的哑剧传统,跨文化推广性有限
- 人类标注可能有主观偏差,部分哑剧表演确实存在多义性
- 开放式QA格式依赖LLM评分器,引入评估噪声
- 未尝试从哑剧视频生成训练数据来大幅提升模型性能
- 仅评估了基于frame采样的方法,对原生视频输入模型的评估不够
- PoseC3D辅助方案的trade-off表明需要更精细的多模态融合策略
相关工作与启发¶
- 与Social-IQ 2.0、IntentQA互补,专注于纯非语言场景
- 与mimetics数据集(评估动作识别)不同,MimeQA全面评估社交认知
- 启发了"语言无关的多模态社交智能"这一新研究方向
- 哑剧与手语研究、跨文化沟通、自闭症辅助等应用场景关联密切
- 对VideoLLM的训练策略有重要启示:需要更多非语言标注的视频数据
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次利用哑剧评估非语言社交智能,问题定义和数据源选择极具创意
- 实验充分度: ⭐⭐⭐⭐ 多模型评估 + 微调 + 跨数据集迁移 + 详细错误分析,但数据集偏小
- 写作质量: ⭐⭐⭐⭐⭐ 叙事流畅,理论基础扎实,错误分析生动有说服力
- 价值: ⭐⭐⭐⭐⭐ 开辟了非语言社交AI的全新评估维度,对推动真正的社交智能有深远意义
相关论文¶
- [CVPR 2025] Efficient Transfer Learning for Video-language Foundation Models
- [ICML 2025] MoMa: Modulating Mamba for Adapting Image Foundation Models to Video Recognition
- [ICCV 2025] FlowSeek: Optical Flow Made Easier with Depth Foundation Models and Motion Bases
- [NeurIPS 2025] Structured Sparse Transition Matrices to Enable State Tracking in State-Space Models
- [NeurIPS 2025] Seeing the Arrow of Time in Large Multimodal Models