跳转至

MA-Bench: Towards Fine-grained Micro-Action Understanding

会议: CVPR 2026
arXiv: 2603.26586
代码: https://MA-Bench.github.io
领域: 视频理解 / 多模态VLM
关键词: 微动作理解, 细粒度动作识别, 多模态大模型评估, 情感分析, 视频问答

一句话总结

提出 MA-Bench 微动作理解基准,包含 1000 个视频和 12000 个结构化 QA 对,通过"感知-理解-推理"三层评估架构系统测试 23 个 MLLM 的细粒度微动作理解能力,并构建 20.5K 训练语料 MA-Bench-Train 用于模型微调提升。

研究背景与动机

  1. 领域现状:微动作(Micro-Action)是人体因情绪变化产生的自发性细微运动,在人际交互和情感状态分析中至关重要。现有微动作数据集如 iMiGUE、SMG、MA-52 等主要服务于传统分类模型。
  2. 现有痛点:MLLM 在视频理解领域快速发展,但在微动作理解方面完全未被探索——缺乏专门的评估基准。现有视频理解基准(如 MVBench、Video-MME)关注日常活动、长视频等场景,不涉及细粒度微动作。
  3. 核心矛盾:微动作极其微妙(平均时长仅2.12秒,涉及手指、头部等局部运动),现有MLLM是否具备捕捉这种细粒度运动的能力完全未知。
  4. 本文目标 (1) 构建专门评估MLLM微动作理解能力的基准;(2) 设计从感知到推理的多层次评估体系;(3) 提供训练数据支持模型改进。
  5. 切入角度:从Micro-Action-52数据集出发,利用光流和骨骼信息构建运动描述符,再通过MLLM生成结构化标注。
  6. 核心 idea:构建首个面向MLLM的微动作理解基准,揭示当前模型在捕捉运动细粒度和身体部位动态方面的重大不足。

方法详解

整体框架

MA-Bench 构建流程分三阶段:(1) 微动运动追踪器:从视频中提取每个身体部位的运动描述符(运动向量+坐标);(2) 结构化微动作标注生成:将运动描述符与提示输入MLLM,生成结构化微动作描述;(3) 基准生成:基于描述生成"感知-理解-推理"三层QA对。最终产出1000视频+12000 QA评估集和20.5K视频训练集。

关键设计

  1. 运动描述符提取(Micro-Motion Tracker):

    • 功能:为每个身体部位提取精确的运动信息
    • 核心思路:融合光流信息和骨骼关键点坐标,为视频中每个身体部位(头、上肢、下肢、躯干等)构建运动向量。光流捕捉像素级运动幅度和方向,骨骼提供结构化空间定位
    • 设计动机:微动作涉及多个身体部位的细微运动,需要比全局运动描述更精细的部位级运动信息。单纯依赖MLLM直接看视频容易忽略这些细节
  2. 三层评估架构(Perception-Comprehension-Reasoning):

    • 功能:从简单到复杂递进评估MLLM的微动作理解能力
    • 核心思路:
      • 感知层(CMAR/FMAR):粗粒度和细粒度动作识别,回答"做了什么"
      • 理解层(SAD/MAS/MMAD/PPR):空间时序推理和部位间动态关系,回答"怎么做的",采用YES/NO格式
      • 推理层(MADU/MARE):生成详细运动描述和推理链,回答"为什么这样判断"
    • 设计动机:单纯的动作分类无法全面评估MLLM对微动作的理解深度,需要从基础感知逐步升级到语义推理
  3. MA-Bench-Train 训练语料:

    • 功能:提供大规模微动作理解微调数据
    • 核心思路:从MA-52数据集的166名参与者中提取20.5K视频,配合结构化微动作描述。与MA-Bench评估集保持跨被试设计(参与者不重叠),确保评估公平性
    • 设计动机:揭示问题后还需提供解决方案——通过微调验证训练数据对提升微动作理解的有效性

损失函数 / 训练策略

闭合题(CMAR/FMAR/关系理解)使用准确率评估。开放题(MADU/MARE)使用VLM-as-a-judge打分(1-5分),从三个层次(L1描述质量、L2运动细节、L3推理连贯性)评估。微调使用Qwen3-VL-8B在MA-Bench-Train上进行标准指令微调。

实验关键数据

主实验

模型 CMAR FMAR SAD MMAD MAS PPR AVG
Random 14.7 20.0 50.0 50.0 50.0 50.0 39.05
GPT-4o 20.50 30.70 51.30 62.35 49.25 55.10 44.87
Gemini-2.5-Flash 43.00 31.40 56.55 60.50 55.50 57.25 50.70
InternVideo2-Chat-8B 22.90 28.10 57.60 58.95 55.80 49.00 45.39

消融实验

配置 关键发现 说明
Qwen3-VL-8B (原始) 基线水平 微动作理解能力有限
Qwen3-VL-8B + MA-Bench-Train MARE/MADU提升明显 结构化标注微调有效
闭合题 vs 开放题 闭合题普遍接近随机 MLLM难以区分细粒度动作类别
专有 vs 开源 Gemini-2.5-Flash最佳(50.70%) 专有模型在感知层优势明显

关键发现

  • MLLM在微动作识别上接近随机猜测:CMAR任务(7类粗分类)上GPT-4o仅20.50%(随机14.7%),说明当前模型几乎无法区分身体部位级的运动
  • 理解层表现好于感知层:YES/NO格式的关系理解任务(SAD等)模型表现相对好于分类任务,暗示模型具备一定的局部判断能力但缺乏整体分类能力
  • 开放题得分极低:MARE推理解释任务中,大多数模型L3得分低于1/5,说明模型无法生成连贯的微动作推理链
  • Gemini-2.5-Flash意外领先:在CMAR上达到43.00%,远超GPT-4o的20.50%,可能受益于其更强的时序建模能力

亮点与洞察

  • 运动描述符驱动的标注策略非常巧妙:不直接让MLLM看视频标注(容易遗漏细节),而是先通过光流+骨骼提取精确运动信息,再将结构化数据输入MLLM生成自然语言描述。这种"先精确检测再语言化"的方法保证了标注质量
  • 三层递进评估设计可迁移到其他细粒度视频理解任务(如微表情、手势语言等),提供了一个通用的评估范式
  • 跨被试设计在训练集和测试集之间保持参与者不重叠,是行为分析领域的标准做法,确保了评估的泛化性

局限与展望

  • MA-Bench视频均来自心理访谈场景,场景多样性有限(坐姿为主),不包含站立、行走等场景的微动作
  • 12000 QA对虽然数量不少,但52个动作类别的长尾分布可能导致少数类别评估不充分
  • 开放题评估采用VLM-as-a-judge,评估器本身可能对微动作描述的判断不够准确
  • 改进方向:(1) 扩展到多场景(如社交互动、课堂、面试);(2) 引入音频模态辅助微动作理解;(3) 设计专门的微动作引导模块嵌入VLM架构

相关工作与启发

  • vs MotionBench: MotionBench关注一般性的细粒度运动理解(5385视频),MA-Bench专注微动作领域(1000视频+12K QA),更聚焦但数据质量更高且标注更结构化
  • vs FAVOR-Bench: FAVOR-Bench侧重动作描述的详细程度,MA-Bench加入了推理和关系理解层次,评估维度更丰富
  • vs Micro-Action-52: MA-52是传统分类数据集,MA-Bench将其升级为MLLM评估基准,是对同一领域的范式转变

评分

  • 新颖性: ⭐⭐⭐⭐ 首个面向MLLM的微动作理解基准,三层评估设计有新意,但构建思路较为标准
  • 实验充分度: ⭐⭐⭐⭐ 23个模型评估覆盖面广,但缺少不同帧采样策略、时序建模等更深入的分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,任务定义明确,图表设计良好
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM在细粒度微动作上的能力缺陷,对情感计算和人机交互领域有实际推动

相关论文