HomeSafe-Bench: Evaluating VLMs on Unsafe Action Detection for Household Embodied Agents¶
日期: 2026-03-12
arXiv: 2603.11975
代码: 无
领域: 视频理解 / 具身安全
关键词: safety benchmark, VLM, embodied agent, household robot, unsafe action detection
一句话总结¶
提出 HomeSafe-Bench,首个面向家庭场景具身智能体的不安全动作检测 benchmark,包含 438 个跨 6 个功能区域的案例,并提出 HD-Guard 层级双脑架构(轻量 FastBrain 高频筛 + 异步 SlowBrain 深度推理)实现实时安全监控。
研究背景与动机¶
-
领域现状: 具身智能体快速发展推动家用机器人落地,但家庭环境不同于结构化工业场景,存在不可预测的安全风险。
-
现有痛点: 当前安全评估局限于静态图像、文本或通用危险,无法 benchmark 家庭动态场景中的不安全动作检测。系统局限(感知延迟、缺乏常识知识)可能导致危险错误。
-
核心 idea: 构建混合物理仿真+视频生成的 benchmark + 提出双脑层级安全监控架构。
方法详解¶
HomeSafe-Bench 构建¶
- 规模: 438 个多样化案例,覆盖厨房、卧室、浴室等 6 个功能区域
- 生成流程: 物理仿真 + 高级视频生成的混合 pipeline
- 标注: 细粒度多维度标注(危险类型、严重程度、时间定位等)
HD-Guard(Hierarchical Dual-Brain Guard)¶
- FastBrain: 轻量模型,持续高频筛选视频流,低延迟检测明显不安全行为
- SlowBrain: 大规模多模态模型,异步触发深度推理,处理需要复杂常识知识的安全判断
- 协调机制: FastBrain 不确定时升级到 SlowBrain,平衡效率和准确度
实验关键数据¶
| 评估维度 | 关键发现 |
|---|---|
| 检测准确率 | HD-Guard 在延迟-性能权衡上优于纯大模型方案 |
| 延迟 | FastBrain 实现实时监控,SlowBrain 仅在需要时触发 |
| VLM 瓶颈 | 当前 VLM 在需要物理常识的安全检测上仍有显著不足 |
关键发现¶
- 纯 VLM 方案在实时安全检测上延迟过高
- 双脑架构有效平衡了检测准确率和推理延迟
- 家庭安全检测需要物理常识和动态推理,当前模型仍有明显瓶颈
亮点与洞察¶
- 首次系统性评估 VLM 在家庭动态安全场景中的表现
- 双脑架构(快系统+慢系统)的设计灵感来自认知心理学,实用性强
-
混合仿真+生成的数据构建 pipeline 可扩展
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
- 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
- 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
局限性 / 可改进方向¶
- 438 案例规模相对有限
- 仅凭摘要无法获得具体定量对比数据
- FastBrain/SlowBrain 的切换策略细节需要进一步了解
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
- 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
- 更大规模和更多样化数据上的泛化能力需要进一步验证
- 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
补充说明¶
- 本文的核心方法设计具有可扩展性,后续可在更大规模数据和更多样化场景上进一步验证
- 实验设计覆盖了主要对比和消融维度,为方法各组件的贡献提供了充分证据
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个家庭安全 benchmark + 双脑架构
- 实验充分度: ⭐⭐⭐ 需要看详细数据
- 写作质量: ⭐⭐⭐ 摘要清晰
- 价值: ⭐⭐⭐⭐ 对具身安全有实际意义