跳转至

HRI-SA: Multimodal Dataset for Human Situational Awareness in Human-Robot Teaming

日期: 2026-03-18
arXiv: 2603.18344
领域: 机器人 / 人机交互
关键词: 人机协作, 情境感知, 眼动追踪, 多模态数据集, SA延迟检测

一句话总结

提出首个开放的人机协作情境感知 (SA) 检测数据集 HRI-SA,收集 30 人搜救任务中的眼动+生理+交互+机器人数据,系统定义感知型和理解型两种 SA 延迟并提供逐 5 秒连续标注,验证通用眼动特征可有效检测感知延迟(recall=88.91%),融合上下文信息后 F1 从 67.63% 提升到 80.38%。

研究背景与动机

  1. 领域现状: 人机协作中操作员的情境感知 (SA) 是任务成功的关键。SA 有三个层级:感知(认识环境元素)、理解(理解其含义)、预测(预判其未来状态)。当操作员需要同时监控多个机器人时,SA 差距频繁出现。

  2. 现有痛点: 传统 SA 测量方法要么中断任务流(SAGAT 冻结探针),要么只能事后评估(SART 问卷),无法实时捕捉 SA 波动。更关键的是,没有任何开放数据集支持在线 SA 评估的系统研究——此前的研究数据集均未公开,无法复现、对比和推进方法。

  3. 核心矛盾: 现有的少数眼动+SA 研究要么样本量极小(单人),要么只分析了特定事件窗口而非完整任务时间线,且使用 10-fold CV(训练/测试可能混入同一人的数据)导致性能过度乐观。

  4. 核心 idea: (1) 构建首个多模态 HRT SA 数据集,包含完整任务时间线的连续标注;(2) 系统化定义两种 SA 延迟(感知型 PSAL 和理解型 CSAL)并 提供精确的时间标注;(3) 通过分类实验验证通用眼动特征可用于实时在线检测。

数据集设计

任务设置

  • 搜救场景:模拟灾害环境,包含隧道(1 机器人,较简单)和洞穴(2 机器人并行,操作员只能看到一个机器人的画面)
  • 操作员任务:监控机器人自主探索、验证机器人检测到的物体(伤亡迹象)、在交叉口发送路点指令、在低矮通道遥控
  • SA 触发设计:预设事件在特定位置触发,但延迟的实际发生时间因机器人到达顺序、操作员响应速度而异——这不是人工标注而是自然产生的 SA 缺失

参与者

  • 30 人(12 女 18 男),平均年龄 32.5 岁,经验从新手到专家不等
  • 每人约 90 分钟,含教程、两个环境各一次任务
  • 按环境顺序做了平衡分组(stratified randomization by expertise)

数据模态

模态 设备 采样率 内容
眼动追踪 Tobii Pro Fusion 120Hz 注视点、瞳孔直径、扫视模式
生理信号 EmbracePlus 手环 - 皮电活动、光电容积、皮温、腕部运动
交互数据 键盘/摇杆记录 事件级 窗口切换(Alt+Tab)、控制命令
机器人数据 ROS 1Hz 位姿 位姿、检测结果、路点指令、遥控输入

SA 延迟标注方法

  • 感知型 SA 延迟 (PSAL):机器人提交物体验证请求到操作员开始验证的时间差。每 5 秒计算当前最大未响应时间 \(PSAL_{now} = \max_{1 \leq i \leq n}(t_{now} - t_i)\),超过 30 秒阈值标记为 PSAL 存在
  • 理解型 SA 延迟 (CSAL):机器人行为变差(需遥控/路点)到操作员意识到的延迟,基于机器人位姿与交叉口/低矮通道位置的距离关系自动计算
  • 两种标注均覆盖完整任务时间线,包括无需干预的正常时段(此前研究缺失这部分)

方法详解:PSAL 检测实验

特征提取

从眼动数据中每 5 秒提取 6 类特征(F1-F6),每类在 10s/20s/…/180s 等 18 个时间窗口内计算,加上一个当前时刻特征,共 91 个眼动特征。另外提取 2 个上下文特征: - F1: 在相关 AOI(感兴趣区域)上的注视时间百分比 - F2: 离任务注视的平均持续时间 - F3/F4: 扫视在相关/无关 AOI 上的持续百分比和均值 - F5: 离任务瞳孔直径均值 - F7/F8: 待验证物体数和是否有待验证物体

分类方法

10 种 ML 模型(LR、LDA、QDA、NB、KNN、DT、RF、AdaBoost、SVM、MLP)在三组特征上评估:纯眼动、纯上下文、融合。使用 class_weight='balanced'或 SMOTE 处理类别不平衡。

评估策略

采用 leave-one-group-out 交叉验证:将 28 名参与者按 PSAL 数据量配对成 14 组,每次留出一组(2人)测试。这比常用的 10-fold 更严格,因为完全排除了同一人的数据泄露。

实验关键数据

主结果:不同特征组的最佳模型

特征组 最佳模型 Precision Recall F1 AUC
仅眼动 MLP 56.76% 88.91% 67.63% 0.77
仅上下文 MLP 67.13% 74.19% 71.65% 0.90
眼动+上下文 RF 72.89% 91.51% 80.38% 0.97

特征重要性分析(RF 模型)

特征 重要性权重 说明
F8(是否有待验证物体) 0.23 上下文特征,最重要
F7(待验证物体数) 0.20 上下文特征,第二
F3_40(30-40s 扫视%) 0.06 眼动特征
F2_40(30-40s 离任务注视) 0.05 眼动特征
F5_30(30s 瞳孔直径) 0.05 眼动特征
  • 上下文特征主导 PSAL 检测(出现在 RF 决策树根部附近),眼动特征关键作用在于降低假阳性
  • 纯上下文和纯眼动模型假阳性率高,融合后 precision 提升 8.6-28.4%

亮点与洞察

  • 首个开放的 HRT SA 数据集:填补了该领域多年来缺乏公开基准的空白,含 30 人完整任务数据和连续标注
  • 通用眼动特征就够用:不需要任务特定的 AOI 定义或场景特定数据,通用的注视/扫视/瞳孔特征即可有效检测 SA 缺失——这意味着方法可迁移到其他 HRT 场景
  • 眼动与上下文互补而非替代:上下文特征(有无待验证物体)提供检测触发信号,眼动特征提供区分真正注意力缺失的能力,两者融合后 F1 从 67-71% 跳到 80%
  • leave-one-group-out 的严格性:首次在 HRT SA 研究中使用 LOGO CV,此前研究用 10-fold 可能因同一人数据泄入训练集而过度乐观
  • SA 延迟的精确时间标注:通过 \(PSAL_{now}\) 公式和机器人状态数据实现自动化连续标注,避免人工主观判断

局限性 / 可改进方向

  • 30 人样本量有限,个体差异大,部分 fold 正样本稀少(不得不配对分组)
  • 仅分析了 PSAL,理解型 CSAL 的检测实验未展示——CSAL 需要更复杂的推理判断
  • 生理信号未用于分类:EmbracePlus 手环采集的皮电/光电容积/皮温数据已包含在数据集中但本文未使用,未来融合可能有增益
  • 实验环境为模拟搜救,操作员警觉度可能低于真实场景
  • 5 秒分类粒度可能对快速变化的 SA 状态不够精细
  • 当前 ML 模型均为传统方法,未测试深度时序模型(LSTM、Transformer)在连续 SA 检测上的潜力

评分

  • 新颖性: ⭐⭐⭐⭐ 首个开放数据集是有价值的贡献,但方法层面是标准 ML 基线
  • 实验充分度: ⭐⭐⭐ 10 个模型 + 3 个特征组 + LOGO CV 设计合理,但只做了 PSAL
  • 价值: ⭐⭐⭐⭐ 对 HRT 安全性研究有基础性价值,数据集公开将推动该方向进展

核心贡献:首个开放的 HRT SA 数据集,包含 30 人连续眼动/生理/交互多模态数据 + 系统化 PSAL/CSAL 延迟标注 + leave-one-group-out 严格评估