HRI-SA: Multimodal Dataset for Human Situational Awareness in Human-Robot Teaming¶
日期: 2026-03-18
arXiv: 2603.18344
领域: 机器人 / 人机交互
关键词: 人机协作, 情境感知, 眼动追踪, 多模态数据集, SA延迟检测
一句话总结¶
提出首个开放的人机协作情境感知 (SA) 检测数据集 HRI-SA,收集 30 人搜救任务中的眼动+生理+交互+机器人数据,系统定义感知型和理解型两种 SA 延迟并提供逐 5 秒连续标注,验证通用眼动特征可有效检测感知延迟(recall=88.91%),融合上下文信息后 F1 从 67.63% 提升到 80.38%。
研究背景与动机¶
-
领域现状: 人机协作中操作员的情境感知 (SA) 是任务成功的关键。SA 有三个层级:感知(认识环境元素)、理解(理解其含义)、预测(预判其未来状态)。当操作员需要同时监控多个机器人时,SA 差距频繁出现。
-
现有痛点: 传统 SA 测量方法要么中断任务流(SAGAT 冻结探针),要么只能事后评估(SART 问卷),无法实时捕捉 SA 波动。更关键的是,没有任何开放数据集支持在线 SA 评估的系统研究——此前的研究数据集均未公开,无法复现、对比和推进方法。
-
核心矛盾: 现有的少数眼动+SA 研究要么样本量极小(单人),要么只分析了特定事件窗口而非完整任务时间线,且使用 10-fold CV(训练/测试可能混入同一人的数据)导致性能过度乐观。
-
核心 idea: (1) 构建首个多模态 HRT SA 数据集,包含完整任务时间线的连续标注;(2) 系统化定义两种 SA 延迟(感知型 PSAL 和理解型 CSAL)并 提供精确的时间标注;(3) 通过分类实验验证通用眼动特征可用于实时在线检测。
数据集设计¶
任务设置¶
- 搜救场景:模拟灾害环境,包含隧道(1 机器人,较简单)和洞穴(2 机器人并行,操作员只能看到一个机器人的画面)
- 操作员任务:监控机器人自主探索、验证机器人检测到的物体(伤亡迹象)、在交叉口发送路点指令、在低矮通道遥控
- SA 触发设计:预设事件在特定位置触发,但延迟的实际发生时间因机器人到达顺序、操作员响应速度而异——这不是人工标注而是自然产生的 SA 缺失
参与者¶
- 30 人(12 女 18 男),平均年龄 32.5 岁,经验从新手到专家不等
- 每人约 90 分钟,含教程、两个环境各一次任务
- 按环境顺序做了平衡分组(stratified randomization by expertise)
数据模态¶
| 模态 | 设备 | 采样率 | 内容 |
|---|---|---|---|
| 眼动追踪 | Tobii Pro Fusion | 120Hz | 注视点、瞳孔直径、扫视模式 |
| 生理信号 | EmbracePlus 手环 | - | 皮电活动、光电容积、皮温、腕部运动 |
| 交互数据 | 键盘/摇杆记录 | 事件级 | 窗口切换(Alt+Tab)、控制命令 |
| 机器人数据 | ROS | 1Hz 位姿 | 位姿、检测结果、路点指令、遥控输入 |
SA 延迟标注方法¶
- 感知型 SA 延迟 (PSAL):机器人提交物体验证请求到操作员开始验证的时间差。每 5 秒计算当前最大未响应时间 \(PSAL_{now} = \max_{1 \leq i \leq n}(t_{now} - t_i)\),超过 30 秒阈值标记为 PSAL 存在
- 理解型 SA 延迟 (CSAL):机器人行为变差(需遥控/路点)到操作员意识到的延迟,基于机器人位姿与交叉口/低矮通道位置的距离关系自动计算
- 两种标注均覆盖完整任务时间线,包括无需干预的正常时段(此前研究缺失这部分)
方法详解:PSAL 检测实验¶
特征提取¶
从眼动数据中每 5 秒提取 6 类特征(F1-F6),每类在 10s/20s/…/180s 等 18 个时间窗口内计算,加上一个当前时刻特征,共 91 个眼动特征。另外提取 2 个上下文特征: - F1: 在相关 AOI(感兴趣区域)上的注视时间百分比 - F2: 离任务注视的平均持续时间 - F3/F4: 扫视在相关/无关 AOI 上的持续百分比和均值 - F5: 离任务瞳孔直径均值 - F7/F8: 待验证物体数和是否有待验证物体
分类方法¶
10 种 ML 模型(LR、LDA、QDA、NB、KNN、DT、RF、AdaBoost、SVM、MLP)在三组特征上评估:纯眼动、纯上下文、融合。使用 class_weight='balanced'或 SMOTE 处理类别不平衡。
评估策略¶
采用 leave-one-group-out 交叉验证:将 28 名参与者按 PSAL 数据量配对成 14 组,每次留出一组(2人)测试。这比常用的 10-fold 更严格,因为完全排除了同一人的数据泄露。
实验关键数据¶
主结果:不同特征组的最佳模型¶
| 特征组 | 最佳模型 | Precision | Recall | F1 | AUC |
|---|---|---|---|---|---|
| 仅眼动 | MLP | 56.76% | 88.91% | 67.63% | 0.77 |
| 仅上下文 | MLP | 67.13% | 74.19% | 71.65% | 0.90 |
| 眼动+上下文 | RF | 72.89% | 91.51% | 80.38% | 0.97 |
特征重要性分析(RF 模型)¶
| 特征 | 重要性权重 | 说明 |
|---|---|---|
| F8(是否有待验证物体) | 0.23 | 上下文特征,最重要 |
| F7(待验证物体数) | 0.20 | 上下文特征,第二 |
| F3_40(30-40s 扫视%) | 0.06 | 眼动特征 |
| F2_40(30-40s 离任务注视) | 0.05 | 眼动特征 |
| F5_30(30s 瞳孔直径) | 0.05 | 眼动特征 |
- 上下文特征主导 PSAL 检测(出现在 RF 决策树根部附近),眼动特征关键作用在于降低假阳性
- 纯上下文和纯眼动模型假阳性率高,融合后 precision 提升 8.6-28.4%
亮点与洞察¶
- 首个开放的 HRT SA 数据集:填补了该领域多年来缺乏公开基准的空白,含 30 人完整任务数据和连续标注
- 通用眼动特征就够用:不需要任务特定的 AOI 定义或场景特定数据,通用的注视/扫视/瞳孔特征即可有效检测 SA 缺失——这意味着方法可迁移到其他 HRT 场景
- 眼动与上下文互补而非替代:上下文特征(有无待验证物体)提供检测触发信号,眼动特征提供区分真正注意力缺失的能力,两者融合后 F1 从 67-71% 跳到 80%
- leave-one-group-out 的严格性:首次在 HRT SA 研究中使用 LOGO CV,此前研究用 10-fold 可能因同一人数据泄入训练集而过度乐观
- SA 延迟的精确时间标注:通过 \(PSAL_{now}\) 公式和机器人状态数据实现自动化连续标注,避免人工主观判断
局限性 / 可改进方向¶
- 30 人样本量有限,个体差异大,部分 fold 正样本稀少(不得不配对分组)
- 仅分析了 PSAL,理解型 CSAL 的检测实验未展示——CSAL 需要更复杂的推理判断
- 生理信号未用于分类:EmbracePlus 手环采集的皮电/光电容积/皮温数据已包含在数据集中但本文未使用,未来融合可能有增益
- 实验环境为模拟搜救,操作员警觉度可能低于真实场景
- 5 秒分类粒度可能对快速变化的 SA 状态不够精细
- 当前 ML 模型均为传统方法,未测试深度时序模型(LSTM、Transformer)在连续 SA 检测上的潜力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个开放数据集是有价值的贡献,但方法层面是标准 ML 基线
- 实验充分度: ⭐⭐⭐ 10 个模型 + 3 个特征组 + LOGO CV 设计合理,但只做了 PSAL
- 价值: ⭐⭐⭐⭐ 对 HRT 安全性研究有基础性价值,数据集公开将推动该方向进展
核心贡献:首个开放的 HRT SA 数据集,包含 30 人连续眼动/生理/交互多模态数据 + 系统化 PSAL/CSAL 延迟标注 + leave-one-group-out 严格评估