HRI-SA: Multimodal Dataset for Human Situational Awareness in Human-Robot Teaming¶

日期: 2026-03-18
arXiv: 2603.18344
领域: 机器人 / 人机交互
关键词: 人机协作, 情境感知, 眼动追踪, 多模态数据集, SA延迟检测

一句话总结¶

提出首个开放的人机协作情境感知 (SA) 检测数据集 HRI-SA，收集 30 人搜救任务中的眼动+生理+交互+机器人数据，系统定义感知型和理解型两种 SA 延迟并提供逐 5 秒连续标注，验证通用眼动特征可有效检测感知延迟（recall=88.91%），融合上下文信息后 F1 从 67.63% 提升到 80.38%。

研究背景与动机¶

领域现状: 人机协作中操作员的情境感知 (SA) 是任务成功的关键。SA 有三个层级：感知（认识环境元素）、理解（理解其含义）、预测（预判其未来状态）。当操作员需要同时监控多个机器人时，SA 差距频繁出现。
现有痛点: 传统 SA 测量方法要么中断任务流（SAGAT 冻结探针），要么只能事后评估（SART 问卷），无法实时捕捉 SA 波动。更关键的是，没有任何开放数据集支持在线 SA 评估的系统研究——此前的研究数据集均未公开，无法复现、对比和推进方法。
核心矛盾: 现有的少数眼动+SA 研究要么样本量极小（单人），要么只分析了特定事件窗口而非完整任务时间线，且使用 10-fold CV（训练/测试可能混入同一人的数据）导致性能过度乐观。
核心 idea: (1) 构建首个多模态 HRT SA 数据集，包含完整任务时间线的连续标注；(2) 系统化定义两种 SA 延迟（感知型 PSAL 和理解型 CSAL）并提供精确的时间标注；(3) 通过分类实验验证通用眼动特征可用于实时在线检测。

数据集设计¶

任务设置¶

搜救场景：模拟灾害环境，包含隧道（1 机器人，较简单）和洞穴（2 机器人并行，操作员只能看到一个机器人的画面）
操作员任务：监控机器人自主探索、验证机器人检测到的物体（伤亡迹象）、在交叉口发送路点指令、在低矮通道遥控
SA 触发设计：预设事件在特定位置触发，但延迟的实际发生时间因机器人到达顺序、操作员响应速度而异——这不是人工标注而是自然产生的 SA 缺失

参与者¶

30 人（12 女 18 男），平均年龄 32.5 岁，经验从新手到专家不等
每人约 90 分钟，含教程、两个环境各一次任务
按环境顺序做了平衡分组（stratified randomization by expertise）

数据模态¶

模态	设备	采样率	内容
眼动追踪	Tobii Pro Fusion	120Hz	注视点、瞳孔直径、扫视模式
生理信号	EmbracePlus 手环	-	皮电活动、光电容积、皮温、腕部运动
交互数据	键盘/摇杆记录	事件级	窗口切换（Alt+Tab）、控制命令
机器人数据	ROS	1Hz 位姿	位姿、检测结果、路点指令、遥控输入

SA 延迟标注方法¶

感知型 SA 延迟 (PSAL)：机器人提交物体验证请求到操作员开始验证的时间差。每 5 秒计算当前最大未响应时间 \(PSAL_{now} = \max_{1 \leq i \leq n}(t_{now} - t_i)\)，超过 30 秒阈值标记为 PSAL 存在
理解型 SA 延迟 (CSAL)：机器人行为变差（需遥控/路点）到操作员意识到的延迟，基于机器人位姿与交叉口/低矮通道位置的距离关系自动计算
两种标注均覆盖完整任务时间线，包括无需干预的正常时段（此前研究缺失这部分）

方法详解：PSAL 检测实验¶

特征提取¶

从眼动数据中每 5 秒提取 6 类特征（F1-F6），每类在 10s/20s/…/180s 等 18 个时间窗口内计算，加上一个当前时刻特征，共 91 个眼动特征。另外提取 2 个上下文特征： - F1: 在相关 AOI（感兴趣区域）上的注视时间百分比 - F2: 离任务注视的平均持续时间 - F3/F4: 扫视在相关/无关 AOI 上的持续百分比和均值 - F5: 离任务瞳孔直径均值 - F7/F8: 待验证物体数和是否有待验证物体

分类方法¶

10 种 ML 模型（LR、LDA、QDA、NB、KNN、DT、RF、AdaBoost、SVM、MLP）在三组特征上评估：纯眼动、纯上下文、融合。使用 class_weight='balanced'或 SMOTE 处理类别不平衡。

评估策略¶

采用 leave-one-group-out 交叉验证：将 28 名参与者按 PSAL 数据量配对成 14 组，每次留出一组（2人）测试。这比常用的 10-fold 更严格，因为完全排除了同一人的数据泄露。

实验关键数据¶

主结果：不同特征组的最佳模型¶

特征组	最佳模型	Precision	Recall	F1	AUC
仅眼动	MLP	56.76%	88.91%	67.63%	0.77
仅上下文	MLP	67.13%	74.19%	71.65%	0.90
眼动+上下文	RF	72.89%	91.51%	80.38%	0.97

特征重要性分析（RF 模型）¶

特征	重要性权重	说明
F8（是否有待验证物体）	0.23	上下文特征，最重要
F7（待验证物体数）	0.20	上下文特征，第二
F3_40（30-40s 扫视%）	0.06	眼动特征
F2_40（30-40s 离任务注视）	0.05	眼动特征
F5_30（30s 瞳孔直径）	0.05	眼动特征

上下文特征主导 PSAL 检测（出现在 RF 决策树根部附近），眼动特征关键作用在于降低假阳性
纯上下文和纯眼动模型假阳性率高，融合后 precision 提升 8.6-28.4%

亮点与洞察¶

首个开放的 HRT SA 数据集：填补了该领域多年来缺乏公开基准的空白，含 30 人完整任务数据和连续标注
通用眼动特征就够用：不需要任务特定的 AOI 定义或场景特定数据，通用的注视/扫视/瞳孔特征即可有效检测 SA 缺失——这意味着方法可迁移到其他 HRT 场景
眼动与上下文互补而非替代：上下文特征（有无待验证物体）提供检测触发信号，眼动特征提供区分真正注意力缺失的能力，两者融合后 F1 从 67-71% 跳到 80%
leave-one-group-out 的严格性：首次在 HRT SA 研究中使用 LOGO CV，此前研究用 10-fold 可能因同一人数据泄入训练集而过度乐观
SA 延迟的精确时间标注：通过 \(PSAL_{now}\) 公式和机器人状态数据实现自动化连续标注，避免人工主观判断

局限性 / 可改进方向¶

30 人样本量有限，个体差异大，部分 fold 正样本稀少（不得不配对分组）
仅分析了 PSAL，理解型 CSAL 的检测实验未展示——CSAL 需要更复杂的推理判断
生理信号未用于分类：EmbracePlus 手环采集的皮电/光电容积/皮温数据已包含在数据集中但本文未使用，未来融合可能有增益
实验环境为模拟搜救，操作员警觉度可能低于真实场景
5 秒分类粒度可能对快速变化的 SA 状态不够精细
当前 ML 模型均为传统方法，未测试深度时序模型（LSTM、Transformer）在连续 SA 检测上的潜力

评分¶

新颖性: ⭐⭐⭐⭐ 首个开放数据集是有价值的贡献，但方法层面是标准 ML 基线
实验充分度: ⭐⭐⭐ 10 个模型 + 3 个特征组 + LOGO CV 设计合理，但只做了 PSAL
价值: ⭐⭐⭐⭐ 对 HRT 安全性研究有基础性价值，数据集公开将推动该方向进展

核心贡献：首个开放的 HRT SA 数据集，包含 30 人连续眼动/生理/交互多模态数据 + 系统化 PSAL/CSAL 延迟标注 + leave-one-group-out 严格评估