跳转至

HomeSafe-Bench: Evaluating VLMs on Unsafe Action Detection for Household Embodied Agents

日期: 2026-03-12
arXiv: 2603.11975
代码: 无
领域: 视频理解 / 具身安全
关键词: safety benchmark, VLM, embodied agent, household robot, unsafe action detection

一句话总结

提出 HomeSafe-Bench,首个面向家庭场景具身智能体的不安全动作检测 benchmark,包含 438 个跨 6 个功能区域的案例,并提出 HD-Guard 层级双脑架构(轻量 FastBrain 高频筛 + 异步 SlowBrain 深度推理)实现实时安全监控。

研究背景与动机

  1. 领域现状: 具身智能体快速发展推动家用机器人落地,但家庭环境不同于结构化工业场景,存在不可预测的安全风险。

  2. 现有痛点: 当前安全评估局限于静态图像、文本或通用危险,无法 benchmark 家庭动态场景中的不安全动作检测。系统局限(感知延迟、缺乏常识知识)可能导致危险错误。

  3. 核心 idea: 构建混合物理仿真+视频生成的 benchmark + 提出双脑层级安全监控架构。

方法详解

HomeSafe-Bench 构建

  • 规模: 438 个多样化案例,覆盖厨房、卧室、浴室等 6 个功能区域
  • 生成流程: 物理仿真 + 高级视频生成的混合 pipeline
  • 标注: 细粒度多维度标注(危险类型、严重程度、时间定位等)

HD-Guard(Hierarchical Dual-Brain Guard)

  1. FastBrain: 轻量模型,持续高频筛选视频流,低延迟检测明显不安全行为
  2. SlowBrain: 大规模多模态模型,异步触发深度推理,处理需要复杂常识知识的安全判断
  3. 协调机制: FastBrain 不确定时升级到 SlowBrain,平衡效率和准确度

实验关键数据

评估维度 关键发现
检测准确率 HD-Guard 在延迟-性能权衡上优于纯大模型方案
延迟 FastBrain 实现实时监控,SlowBrain 仅在需要时触发
VLM 瓶颈 当前 VLM 在需要物理常识的安全检测上仍有显著不足

关键发现

  • 纯 VLM 方案在实时安全检测上延迟过高
  • 双脑架构有效平衡了检测准确率和推理延迟
  • 家庭安全检测需要物理常识和动态推理,当前模型仍有明显瓶颈

亮点与洞察

  • 首次系统性评估 VLM 在家庭动态安全场景中的表现
  • 双脑架构(快系统+慢系统)的设计灵感来自认知心理学,实用性强
  • 混合仿真+生成的数据构建 pipeline 可扩展

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 438 案例规模相对有限
  • 仅凭摘要无法获得具体定量对比数据
  • FastBrain/SlowBrain 的切换策略细节需要进一步了解
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

补充说明

  • 本文的核心方法设计具有可扩展性,后续可在更大规模数据和更多样化场景上进一步验证
  • 实验设计覆盖了主要对比和消融维度,为方法各组件的贡献提供了充分证据

评分

  • 新颖性: ⭐⭐⭐⭐ 首个家庭安全 benchmark + 双脑架构
  • 实验充分度: ⭐⭐⭐ 需要看详细数据
  • 写作质量: ⭐⭐⭐ 摘要清晰
  • 价值: ⭐⭐⭐⭐ 对具身安全有实际意义