OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments¶

会议: CVPR 2026
arXiv: 2603.02390
代码: 有（OpenMarcie 官网提供数据集与代码）
领域: 视频理解
关键词: 多模态数据集, 人体动作识别, 工业制造, 可穿戴传感器, 跨模态对齐

一句话总结¶

提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie，融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制，并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。

研究背景与动机¶

1. 领域现状¶

智能工厂依赖人类活动识别（HAR）来量化工人表现、提升效率并保障安全。视频数据长期是 HAR 的主要信息来源，但单一视觉模态在工业场景中面临隐私泄露和技术泄漏风险。近年来已涌现多个工业 HAR 数据集（InHARD、LARa、OpenPack、Assembly101、IKEA-ASM 等），但均存在明显短板。

2. 痛点¶

现有工业 HAR 数据集存在三大局限： - 缺乏真正的多模态同步数据：多数仅覆盖视觉或 IMU 单一模态，缺少可穿戴传感器+视觉+音频的协同采集 - 任务过度受限：依赖高度控制的协议驱动任务，无法反映真实工业中开放式、程序化的工作流程 - 人口多样性和任务复杂度不足：多数数据集仅采集短时孤立动作，未能捕捉制造业中长时间、多步骤的连续活动

3. 核心矛盾¶

人类动作本质上是多模态的——整合了视觉、听觉、触觉以及认知和情绪状态——但现有数据集要么模态单一，要么缺乏自然变异性和真实工业噪声。要让 AI 系统真正理解工业场景中的人类活动，需要一个涵盖多种传感器、多视角视频、自然语言叙述的综合性数据集。

4. 要解决什么¶

构建一个统一的大规模工业多模态基准，同时支持活动分类、开放词表描述生成和跨模态对齐三大任务，填补当前数据集在模态丰富度、任务多样性和标注细粒度上的空白。

5. 切入角度¶

设计两个互补的实验场景——自行车组装拆卸（开放式临场发挥）和 3D 打印机组装（程序化依照说明书）——分别捕捉自由目标导向行为和程序化知识获取过程，并通过序贯协作组装引入真实制造业动态。

6. 核心 idea¶

OpenMarcie 是首个同时覆盖可穿戴传感器 + 自中心/外中心多视角视频 + 多动作重叠标注的全工业场景数据集，通过 8 种感知模态、282 个原始通道、36 名参与者和超过 37 小时的数据，为工业 HAR 提供最全面的多模态基准。

方法详解¶

整体框架¶

OpenMarcie 围绕数据采集→标注→验证基准三大模块构建：

数据采集：两个实验场景（Ad-hoc 自行车 + Procedural 3D 打印机），每个场景部署 3 台 ZED X AI 立体相机覆盖外中心视角，参与者佩戴包含 IMU、气压计、温度计、光谱仪、热成像相机、RGB-LiDAR、立体麦克风等可穿戴设备
标注管线：人工标注 + LLM 辅助结构化标签生成的混合方案
验证基准：HAR 分类、开放词表描述、跨模态对齐

关键设计¶

设计一：双场景互补采集¶

做什么：设置两个对比场景——自行车组装（Ad-hoc）和 3D 打印机组装（Procedural）
核心思路：自行车是参与者熟悉的任务，鼓励自由决策和目标导向的即兴操作；3D 打印机是不熟悉的任务，需要解读详细说明书并获取程序化知识。两者互补覆盖了开放式维修和结构化流水线组装
设计动机：真实工业环境同时包含熟练工的即兴操作和新手的按规程操作，单一场景难以全面反映。3D 打印机场景还加入序贯协作组装（下一位参与者从上一位停下处继续），要求评估他人进度并决定后续步骤，模拟真实产线交接

设计二：8 种感知模态覆盖¶

做什么：同步采集 IMU（手腕、前额）、磁力计、气压计、温度传感器、光谱仪、热成像、RGB-LiDAR、立体音频、外中心 RGBD 相机等共 282 个原始通道
核心思路：不同模态携带互补信息——IMU 捕捉运动动力学，视觉捕捉空间上下文，音频捕捉工具使用声，LiDAR 提供距离信息
设计动机：单一模态无法完整理解工业动作（如仅靠视觉无法区分拧紧和松开，仅靠 IMU 难以理解操作对象），多模态融合是提升 HAR 准确性的关键路径。此外多模态方案可在视觉受限时进行传感器替代

设计三：混合标注管线（人工 + LLM）¶

做什么：Scenario (a) 由人工在最佳外中心视角上用 verb-object-tool 方案手动标注，支持多标签（如"边走边搬"）；Scenario (b) 由外部观察者实时叙述，经 Whisper large-v3 转录后，通过两阶段 LLM 管线（DeepSeek-R1 提取动作类 → GPT-4o 生成结构化硬标签）
核心思路：人工标注确保精确的 ground truth，LLM 辅助标注用于大规模场景以降低成本；双向一致性检验（结构化→描述→结构化）验证标签质量
设计动机：纯人工标注 37 小时数据成本极高，LLM 可作为结构化翻译器将自然语言叙述转为训练标签。验证结果显示 Scenario (a) Macro F1 = 0.715、Scenario (b) METEOR = 0.531，表明 LLM 标签可靠

验证基准方法¶

HAR 分类：ViT（视频）+ DeepConvLSTM（IMU）+ EnCodec + 时序分类器（音频），单模态独立训练后用 late-fusion transformer 进行多模态融合，12 类动作，按被试划分训练/测试集
开放词表描述：模态专用编码器回归叙述文本的句子嵌入（OV-HAR 方案），通过 Vec2Text 嵌入检索解码，无需大语言模型
跨模态对齐：受 ImageBind 启发，用对比学习（多模态 InfoNCE loss）将视频、IMU、音频、语言对齐到共享嵌入空间

实验关键数据¶

主实验¶

表1：HAR 分类 Macro F1（↑）

模态	Scenario (a) No Null	Scenario (a) Null	Scenario (b) No Null	Scenario (b) Null
Inertial (I)	0.834	0.811	0.750	0.674
Acoustic (A)	0.489	0.469	0.425	0.432
Vision (V)	0.757	0.729	0.705	0.655
I + A	0.803	0.782	0.744	0.666
A + V	0.739	0.714	0.695	0.646
I + V	0.882	0.851	0.773	0.685
I + A + V	0.859	0.831	0.763	0.676

表2：跨模态对齐 Recall 与 Top-1 准确率

模态组合	Scenario (a) R@1	R@5	Top-1	Scenario (b) R@1	R@5	Top-1
I + T	0.324	0.655	0.481	0.312	0.642	0.468
A + T	0.241	0.583	0.342	0.227	0.567	0.329
V + T	0.437	0.768	0.556	0.421	0.751	0.541
I + A + T	0.347	0.679	0.495	0.334	0.663	0.479
A + V + T	0.412	0.740	0.533	0.395	0.723	0.517
I + V + T	0.485	0.803	0.587	0.467	0.787	0.570
I + A + V + T	0.470	0.795	0.579	0.453	0.779	0.563

消融实验¶

开放词表描述的 Cosine Similarity 结果进一步验证模态互补性： - I + V 最优：Scenario (a) 0.561、Scenario (b) 0.655，始终超过三模态融合(I+A+V = 0.547 / 0.647) - Acoustic 单独最弱：Scenario (a) 仅 0.361，远低于 Inertial 的 0.518 和 Vision 的 0.479 - 加入 Acoustic 收益有限：I+A (0.512) 略低于单独 I (0.518)，说明音频在当前设置下甚至可能引入噪声 - 去除 Null 类后所有指标均有提升，表明空活动段是分类中的主要困难来源

关键发现¶

Inertial + Vision 是黄金组合：在 HAR、描述、对齐三个任务中均一致地取得最佳性能，表明运动动力学和视觉空间信息高度互补
三模态融合反而不如双模态：I+A+V 在多数指标上低于 I+V，说明噪声较大的音频模态在 late fusion 中可能稀释有效信号
Ad-hoc 场景普遍优于 Procedural 场景：自行车组装的 HAR F1 (0.882) 远高于 3D 打印机 (0.773)，因后者涉及更多不熟悉的小部件操作和认知挑战
音频模态表现有限但非无用：独立性能差主要因为数据在实验台而非真实工厂采集，缺乏真实工业噪声（机器振动等）；在融合中仍有边际贡献

亮点与洞察¶

规模与覆盖最全：8 种模态、282 通道、37+ 小时、36 名参与者，是已知最大的工业多模态 HAR 数据集
生态效度高：序贯协作组装设计（后一位从前一位处继续）真实反映产线交接场景
标注方法创新：人工标注 + LLM 两阶段管线 + 双向一致性检验，平衡了标注成本与质量
多标签动作支持：独特的 verb-object-tool 方案允许重叠标注（如边走边搬运），更贴近真实工业场景
三个互补基准：HAR + 描述 + 对齐的组合全面评估数据集的多方面价值

局限性 / 可改进方向¶

参与者多样性有限：以右利手工程师为主（72%工程师、86%右利手），人口统计泛化性受限
音频模态效果弱：实验室环境缺乏真实工业噪声，音频信号在实际工厂中的表现仍待验证
标注覆盖不完全：当前标注仅利用了部分数据集潜力，多视角录制还可支持物体、交互、姿态等更丰富的标注
传感器配置跨场景不完全一致：两个场景的可穿戴设备放置有差异，虽然关键模态（手腕 IMU、胸部 LiDAR、立体麦克风）一致，但增加了跨场景比较难度
基准方法较为基础：HAR 用 ViT + DeepConvLSTM 的 late fusion，未探索更先进的早期融合或注意力融合策略

评分¶

⭐⭐⭐⭐ 高质量的工业多模态数据集贡献，模态覆盖和场景设计均为同领域最全面，三个验证基准系统化程度高；主要不足是音频模态实用性待验证且基准方法偏基础，作为 dataset paper 整体贡献突出。