跳转至

Daily arXiv

HomeSafe-Bench — Evaluating VLMs on Unsafe A...

HomeSafe-Bench: Evaluating VLMs on Unsafe Action Detection for Household Embodied Agents¶

日期: 2026-03-12
arXiv: 2603.11975
代码: 无
领域: 视频理解 / 具身安全
关键词: safety benchmark, VLM, embodied agent, household robot, unsafe action detection

一句话总结¶

提出 HomeSafe-Bench，首个面向家庭场景具身智能体的不安全动作检测 benchmark，包含 438 个跨 6 个功能区域的案例，并提出 HD-Guard 层级双脑架构（轻量 FastBrain 高频筛 + 异步 SlowBrain 深度推理）实现实时安全监控。

研究背景与动机¶

领域现状: 具身智能体快速发展推动家用机器人落地，但家庭环境不同于结构化工业场景，存在不可预测的安全风险。
现有痛点: 当前安全评估局限于静态图像、文本或通用危险，无法 benchmark 家庭动态场景中的不安全动作检测。系统局限（感知延迟、缺乏常识知识）可能导致危险错误。
核心 idea: 构建混合物理仿真+视频生成的 benchmark + 提出双脑层级安全监控架构。

方法详解¶

HomeSafe-Bench 构建¶

规模: 438 个多样化案例，覆盖厨房、卧室、浴室等 6 个功能区域
生成流程: 物理仿真 + 高级视频生成的混合 pipeline
标注: 细粒度多维度标注（危险类型、严重程度、时间定位等）

HD-Guard（Hierarchical Dual-Brain Guard）¶

FastBrain: 轻量模型，持续高频筛选视频流，低延迟检测明显不安全行为
SlowBrain: 大规模多模态模型，异步触发深度推理，处理需要复杂常识知识的安全判断
协调机制: FastBrain 不确定时升级到 SlowBrain，平衡效率和准确度

实验关键数据¶

评估维度	关键发现
检测准确率	HD-Guard 在延迟-性能权衡上优于纯大模型方案
延迟	FastBrain 实现实时监控，SlowBrain 仅在需要时触发
VLM 瓶颈	当前 VLM 在需要物理常识的安全检测上仍有显著不足

关键发现¶

纯 VLM 方案在实时安全检测上延迟过高
双脑架构有效平衡了检测准确率和推理延迟
家庭安全检测需要物理常识和动态推理，当前模型仍有明显瓶颈

亮点与洞察¶

首次系统性评估 VLM 在家庭动态安全场景中的表现
双脑架构（快系统+慢系统）的设计灵感来自认知心理学，实用性强
混合仿真+生成的数据构建 pipeline 可扩展
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

438 案例规模相对有限
仅凭摘要无法获得具体定量对比数据
FastBrain/SlowBrain 的切换策略细节需要进一步了解
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力

补充说明¶

本文的核心方法设计具有可扩展性，后续可在更大规模数据和更多样化场景上进一步验证
实验设计覆盖了主要对比和消融维度，为方法各组件的贡献提供了充分证据

评分¶

新颖性: ⭐⭐⭐⭐ 首个家庭安全 benchmark + 双脑架构
实验充分度: ⭐⭐⭐ 需要看详细数据
写作质量: ⭐⭐⭐ 摘要清晰
价值: ⭐⭐⭐⭐ 对具身安全有实际意义