MA-Bench: Towards Fine-grained Micro-Action Understanding¶

会议: CVPR 2026
arXiv: 2603.26586
代码: https://MA-Bench.github.io
领域: 视频理解 / 多模态VLM
关键词: 微动作理解, 细粒度动作识别, 多模态大模型评估, 情感分析, 视频问答

一句话总结¶

提出 MA-Bench 微动作理解基准，包含 1000 个视频和 12000 个结构化 QA 对，通过"感知-理解-推理"三层评估架构系统测试 23 个 MLLM 的细粒度微动作理解能力，并构建 20.5K 训练语料 MA-Bench-Train 用于模型微调提升。

研究背景与动机¶

领域现状：微动作（Micro-Action）是人体因情绪变化产生的自发性细微运动，在人际交互和情感状态分析中至关重要。现有微动作数据集如 iMiGUE、SMG、MA-52 等主要服务于传统分类模型。
现有痛点：MLLM 在视频理解领域快速发展，但在微动作理解方面完全未被探索——缺乏专门的评估基准。现有视频理解基准（如 MVBench、Video-MME）关注日常活动、长视频等场景，不涉及细粒度微动作。
核心矛盾：微动作极其微妙（平均时长仅2.12秒，涉及手指、头部等局部运动），现有MLLM是否具备捕捉这种细粒度运动的能力完全未知。
本文目标 (1) 构建专门评估MLLM微动作理解能力的基准；(2) 设计从感知到推理的多层次评估体系；(3) 提供训练数据支持模型改进。
切入角度：从Micro-Action-52数据集出发，利用光流和骨骼信息构建运动描述符，再通过MLLM生成结构化标注。
核心 idea：构建首个面向MLLM的微动作理解基准，揭示当前模型在捕捉运动细粒度和身体部位动态方面的重大不足。

方法详解¶

整体框架¶

MA-Bench 构建流程分三阶段：(1) 微动运动追踪器：从视频中提取每个身体部位的运动描述符（运动向量+坐标）；(2) 结构化微动作标注生成：将运动描述符与提示输入MLLM，生成结构化微动作描述；(3) 基准生成：基于描述生成"感知-理解-推理"三层QA对。最终产出1000视频+12000 QA评估集和20.5K视频训练集。

关键设计¶

运动描述符提取（Micro-Motion Tracker）:
- 功能：为每个身体部位提取精确的运动信息
- 核心思路：融合光流信息和骨骼关键点坐标，为视频中每个身体部位（头、上肢、下肢、躯干等）构建运动向量。光流捕捉像素级运动幅度和方向，骨骼提供结构化空间定位
- 设计动机：微动作涉及多个身体部位的细微运动，需要比全局运动描述更精细的部位级运动信息。单纯依赖MLLM直接看视频容易忽略这些细节
三层评估架构（Perception-Comprehension-Reasoning）:
- 功能：从简单到复杂递进评估MLLM的微动作理解能力
- 核心思路：
  - 感知层（CMAR/FMAR）：粗粒度和细粒度动作识别，回答"做了什么"
  - 理解层（SAD/MAS/MMAD/PPR）：空间时序推理和部位间动态关系，回答"怎么做的"，采用YES/NO格式
  - 推理层（MADU/MARE）：生成详细运动描述和推理链，回答"为什么这样判断"
- 设计动机：单纯的动作分类无法全面评估MLLM对微动作的理解深度，需要从基础感知逐步升级到语义推理
MA-Bench-Train 训练语料:
- 功能：提供大规模微动作理解微调数据
- 核心思路：从MA-52数据集的166名参与者中提取20.5K视频，配合结构化微动作描述。与MA-Bench评估集保持跨被试设计（参与者不重叠），确保评估公平性
- 设计动机：揭示问题后还需提供解决方案——通过微调验证训练数据对提升微动作理解的有效性

损失函数 / 训练策略¶

闭合题（CMAR/FMAR/关系理解）使用准确率评估。开放题（MADU/MARE）使用VLM-as-a-judge打分（1-5分），从三个层次（L1描述质量、L2运动细节、L3推理连贯性）评估。微调使用Qwen3-VL-8B在MA-Bench-Train上进行标准指令微调。

实验关键数据¶

主实验¶

模型	CMAR	FMAR	SAD	MMAD	MAS	PPR	AVG
Random	14.7	20.0	50.0	50.0	50.0	50.0	39.05
GPT-4o	20.50	30.70	51.30	62.35	49.25	55.10	44.87
Gemini-2.5-Flash	43.00	31.40	56.55	60.50	55.50	57.25	50.70
InternVideo2-Chat-8B	22.90	28.10	57.60	58.95	55.80	49.00	45.39

消融实验¶

配置	关键发现	说明
Qwen3-VL-8B (原始)	基线水平	微动作理解能力有限
Qwen3-VL-8B + MA-Bench-Train	MARE/MADU提升明显	结构化标注微调有效
闭合题 vs 开放题	闭合题普遍接近随机	MLLM难以区分细粒度动作类别
专有 vs 开源	Gemini-2.5-Flash最佳(50.70%)	专有模型在感知层优势明显

关键发现¶

MLLM在微动作识别上接近随机猜测：CMAR任务（7类粗分类）上GPT-4o仅20.50%（随机14.7%），说明当前模型几乎无法区分身体部位级的运动
理解层表现好于感知层：YES/NO格式的关系理解任务（SAD等）模型表现相对好于分类任务，暗示模型具备一定的局部判断能力但缺乏整体分类能力
开放题得分极低：MARE推理解释任务中，大多数模型L3得分低于1/5，说明模型无法生成连贯的微动作推理链
Gemini-2.5-Flash意外领先：在CMAR上达到43.00%，远超GPT-4o的20.50%，可能受益于其更强的时序建模能力

亮点与洞察¶

运动描述符驱动的标注策略非常巧妙：不直接让MLLM看视频标注（容易遗漏细节），而是先通过光流+骨骼提取精确运动信息，再将结构化数据输入MLLM生成自然语言描述。这种"先精确检测再语言化"的方法保证了标注质量
三层递进评估设计可迁移到其他细粒度视频理解任务（如微表情、手势语言等），提供了一个通用的评估范式
跨被试设计在训练集和测试集之间保持参与者不重叠，是行为分析领域的标准做法，确保了评估的泛化性

局限与展望¶

MA-Bench视频均来自心理访谈场景，场景多样性有限（坐姿为主），不包含站立、行走等场景的微动作
12000 QA对虽然数量不少，但52个动作类别的长尾分布可能导致少数类别评估不充分
开放题评估采用VLM-as-a-judge，评估器本身可能对微动作描述的判断不够准确
改进方向：(1) 扩展到多场景（如社交互动、课堂、面试）；(2) 引入音频模态辅助微动作理解；(3) 设计专门的微动作引导模块嵌入VLM架构

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向MLLM的微动作理解基准，三层评估设计有新意，但构建思路较为标准
实验充分度: ⭐⭐⭐⭐ 23个模型评估覆盖面广，但缺少不同帧采样策略、时序建模等更深入的分析
写作质量: ⭐⭐⭐⭐ 结构清晰，任务定义明确，图表设计良好
价值: ⭐⭐⭐⭐ 揭示了MLLM在细粒度微动作上的能力缺陷，对情感计算和人机交互领域有实际推动