OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments¶
会议: CVPR 2026
arXiv: 2603.02390
代码: 有(OpenMarcie 官网提供数据集与代码)
领域: 视频理解
关键词: 多模态数据集, 人体动作识别, 工业制造, 可穿戴传感器, 跨模态对齐
一句话总结¶
提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie,融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制,并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。
研究背景与动机¶
1. 领域现状¶
智能工厂依赖人类活动识别(HAR)来量化工人表现、提升效率并保障安全。视频数据长期是 HAR 的主要信息来源,但单一视觉模态在工业场景中面临隐私泄露和技术泄漏风险。近年来已涌现多个工业 HAR 数据集(InHARD、LARa、OpenPack、Assembly101、IKEA-ASM 等),但均存在明显短板。
2. 痛点¶
现有工业 HAR 数据集存在三大局限: - 缺乏真正的多模态同步数据:多数仅覆盖视觉或 IMU 单一模态,缺少可穿戴传感器+视觉+音频的协同采集 - 任务过度受限:依赖高度控制的协议驱动任务,无法反映真实工业中开放式、程序化的工作流程 - 人口多样性和任务复杂度不足:多数数据集仅采集短时孤立动作,未能捕捉制造业中长时间、多步骤的连续活动
3. 核心矛盾¶
人类动作本质上是多模态的——整合了视觉、听觉、触觉以及认知和情绪状态——但现有数据集要么模态单一,要么缺乏自然变异性和真实工业噪声。要让 AI 系统真正理解工业场景中的人类活动,需要一个涵盖多种传感器、多视角视频、自然语言叙述的综合性数据集。
4. 要解决什么¶
构建一个统一的大规模工业多模态基准,同时支持活动分类、开放词表描述生成和跨模态对齐三大任务,填补当前数据集在模态丰富度、任务多样性和标注细粒度上的空白。
5. 切入角度¶
设计两个互补的实验场景——自行车组装拆卸(开放式临场发挥)和 3D 打印机组装(程序化依照说明书)——分别捕捉自由目标导向行为和程序化知识获取过程,并通过序贯协作组装引入真实制造业动态。
6. 核心 idea¶
OpenMarcie 是首个同时覆盖可穿戴传感器 + 自中心/外中心多视角视频 + 多动作重叠标注的全工业场景数据集,通过 8 种感知模态、282 个原始通道、36 名参与者和超过 37 小时的数据,为工业 HAR 提供最全面的多模态基准。
方法详解¶
整体框架¶
OpenMarcie 围绕数据采集→标注→验证基准三大模块构建:
- 数据采集:两个实验场景(Ad-hoc 自行车 + Procedural 3D 打印机),每个场景部署 3 台 ZED X AI 立体相机覆盖外中心视角,参与者佩戴包含 IMU、气压计、温度计、光谱仪、热成像相机、RGB-LiDAR、立体麦克风等可穿戴设备
- 标注管线:人工标注 + LLM 辅助结构化标签生成的混合方案
- 验证基准:HAR 分类、开放词表描述、跨模态对齐
关键设计¶
设计一:双场景互补采集¶
- 做什么:设置两个对比场景——自行车组装(Ad-hoc)和 3D 打印机组装(Procedural)
- 核心思路:自行车是参与者熟悉的任务,鼓励自由决策和目标导向的即兴操作;3D 打印机是不熟悉的任务,需要解读详细说明书并获取程序化知识。两者互补覆盖了开放式维修和结构化流水线组装
- 设计动机:真实工业环境同时包含熟练工的即兴操作和新手的按规程操作,单一场景难以全面反映。3D 打印机场景还加入序贯协作组装(下一位参与者从上一位停下处继续),要求评估他人进度并决定后续步骤,模拟真实产线交接
设计二:8 种感知模态覆盖¶
- 做什么:同步采集 IMU(手腕、前额)、磁力计、气压计、温度传感器、光谱仪、热成像、RGB-LiDAR、立体音频、外中心 RGBD 相机等共 282 个原始通道
- 核心思路:不同模态携带互补信息——IMU 捕捉运动动力学,视觉捕捉空间上下文,音频捕捉工具使用声,LiDAR 提供距离信息
- 设计动机:单一模态无法完整理解工业动作(如仅靠视觉无法区分拧紧和松开,仅靠 IMU 难以理解操作对象),多模态融合是提升 HAR 准确性的关键路径。此外多模态方案可在视觉受限时进行传感器替代
设计三:混合标注管线(人工 + LLM)¶
- 做什么:Scenario (a) 由人工在最佳外中心视角上用 verb-object-tool 方案手动标注,支持多标签(如"边走边搬");Scenario (b) 由外部观察者实时叙述,经 Whisper large-v3 转录后,通过两阶段 LLM 管线(DeepSeek-R1 提取动作类 → GPT-4o 生成结构化硬标签)
- 核心思路:人工标注确保精确的 ground truth,LLM 辅助标注用于大规模场景以降低成本;双向一致性检验(结构化→描述→结构化)验证标签质量
- 设计动机:纯人工标注 37 小时数据成本极高,LLM 可作为结构化翻译器将自然语言叙述转为训练标签。验证结果显示 Scenario (a) Macro F1 = 0.715、Scenario (b) METEOR = 0.531,表明 LLM 标签可靠
验证基准方法¶
- HAR 分类:ViT(视频)+ DeepConvLSTM(IMU)+ EnCodec + 时序分类器(音频),单模态独立训练后用 late-fusion transformer 进行多模态融合,12 类动作,按被试划分训练/测试集
- 开放词表描述:模态专用编码器回归叙述文本的句子嵌入(OV-HAR 方案),通过 Vec2Text 嵌入检索解码,无需大语言模型
- 跨模态对齐:受 ImageBind 启发,用对比学习(多模态 InfoNCE loss)将视频、IMU、音频、语言对齐到共享嵌入空间
实验关键数据¶
主实验¶
表1:HAR 分类 Macro F1(↑)
| 模态 | Scenario (a) No Null | Scenario (a) Null | Scenario (b) No Null | Scenario (b) Null |
|---|---|---|---|---|
| Inertial (I) | 0.834 | 0.811 | 0.750 | 0.674 |
| Acoustic (A) | 0.489 | 0.469 | 0.425 | 0.432 |
| Vision (V) | 0.757 | 0.729 | 0.705 | 0.655 |
| I + A | 0.803 | 0.782 | 0.744 | 0.666 |
| A + V | 0.739 | 0.714 | 0.695 | 0.646 |
| I + V | 0.882 | 0.851 | 0.773 | 0.685 |
| I + A + V | 0.859 | 0.831 | 0.763 | 0.676 |
表2:跨模态对齐 Recall 与 Top-1 准确率
| 模态组合 | Scenario (a) R@1 | R@5 | Top-1 | Scenario (b) R@1 | R@5 | Top-1 |
|---|---|---|---|---|---|---|
| I + T | 0.324 | 0.655 | 0.481 | 0.312 | 0.642 | 0.468 |
| A + T | 0.241 | 0.583 | 0.342 | 0.227 | 0.567 | 0.329 |
| V + T | 0.437 | 0.768 | 0.556 | 0.421 | 0.751 | 0.541 |
| I + A + T | 0.347 | 0.679 | 0.495 | 0.334 | 0.663 | 0.479 |
| A + V + T | 0.412 | 0.740 | 0.533 | 0.395 | 0.723 | 0.517 |
| I + V + T | 0.485 | 0.803 | 0.587 | 0.467 | 0.787 | 0.570 |
| I + A + V + T | 0.470 | 0.795 | 0.579 | 0.453 | 0.779 | 0.563 |
消融实验¶
开放词表描述的 Cosine Similarity 结果进一步验证模态互补性: - I + V 最优:Scenario (a) 0.561、Scenario (b) 0.655,始终超过三模态融合(I+A+V = 0.547 / 0.647) - Acoustic 单独最弱:Scenario (a) 仅 0.361,远低于 Inertial 的 0.518 和 Vision 的 0.479 - 加入 Acoustic 收益有限:I+A (0.512) 略低于单独 I (0.518),说明音频在当前设置下甚至可能引入噪声 - 去除 Null 类后所有指标均有提升,表明空活动段是分类中的主要困难来源
关键发现¶
- Inertial + Vision 是黄金组合:在 HAR、描述、对齐三个任务中均一致地取得最佳性能,表明运动动力学和视觉空间信息高度互补
- 三模态融合反而不如双模态:I+A+V 在多数指标上低于 I+V,说明噪声较大的音频模态在 late fusion 中可能稀释有效信号
- Ad-hoc 场景普遍优于 Procedural 场景:自行车组装的 HAR F1 (0.882) 远高于 3D 打印机 (0.773),因后者涉及更多不熟悉的小部件操作和认知挑战
- 音频模态表现有限但非无用:独立性能差主要因为数据在实验台而非真实工厂采集,缺乏真实工业噪声(机器振动等);在融合中仍有边际贡献
亮点与洞察¶
- 规模与覆盖最全:8 种模态、282 通道、37+ 小时、36 名参与者,是已知最大的工业多模态 HAR 数据集
- 生态效度高:序贯协作组装设计(后一位从前一位处继续)真实反映产线交接场景
- 标注方法创新:人工标注 + LLM 两阶段管线 + 双向一致性检验,平衡了标注成本与质量
- 多标签动作支持:独特的 verb-object-tool 方案允许重叠标注(如边走边搬运),更贴近真实工业场景
- 三个互补基准:HAR + 描述 + 对齐的组合全面评估数据集的多方面价值
局限性 / 可改进方向¶
- 参与者多样性有限:以右利手工程师为主(72%工程师、86%右利手),人口统计泛化性受限
- 音频模态效果弱:实验室环境缺乏真实工业噪声,音频信号在实际工厂中的表现仍待验证
- 标注覆盖不完全:当前标注仅利用了部分数据集潜力,多视角录制还可支持物体、交互、姿态等更丰富的标注
- 传感器配置跨场景不完全一致:两个场景的可穿戴设备放置有差异,虽然关键模态(手腕 IMU、胸部 LiDAR、立体麦克风)一致,但增加了跨场景比较难度
- 基准方法较为基础:HAR 用 ViT + DeepConvLSTM 的 late fusion,未探索更先进的早期融合或注意力融合策略
相关工作与启发¶
- 与 Ego-Exo4D 互补:Ego-Exo4D 规模更大(1200h)但工业数据仅占约 6%,OpenMarcie 则 100% 工业覆盖且包含可穿戴传感器
- OpenPack 的拓展:OpenPack 专注物流场景 50h+ IMU/IoT,但缺少视觉和自中心视角;OpenMarcie 补充了视觉+自中心模态
- ImageBind 的实际应用检验:将 ImageBind 的多模态对齐理念从互联网规模数据迁移到结构化工业传感器数据
- 对未来研究的启发:可探索早期融合策略以更好利用音频信号;可基于 3D 打印机 STL 零件模型做物体检测增强;序贯协作设计可延伸为人机协作数据集
评分¶
⭐⭐⭐⭐ 高质量的工业多模态数据集贡献,模态覆盖和场景设计均为同领域最全面,三个验证基准系统化程度高;主要不足是音频模态实用性待验证且基准方法偏基础,作为 dataset paper 整体贡献突出。