SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models¶

会议: ACL 2026
arXiv: 2604.19638
代码: https://github.com/sled-group/SafetyALFRED
领域: 多模态VLM
关键词: 具身安全, 危险缓解, 多模态评估, 安全规划, ALFRED

一句话总结¶

本文提出 SafetyALFRED 基准，在 ALFRED 具身任务中引入六类厨房安全隐患，揭示了多模态大语言模型在静态 QA 中能识别危险（最高 92%）但在具身规划中却难以主动缓解危险（<60%）的严重对齐差距，倡导从 QA 评估范式转向具身安全评估。

研究背景与动机¶

领域现状：多模态大语言模型正被越来越多地作为具身环境中的自主代理使用，将高级自然语言指令转化为可执行计划。现有安全基准如 ASIMOV、Multimodal Situational Safety、MM-SafetyBench 主要通过基于静态图像/视频的问答任务评估危险识别能力。

现有痛点：现有评估存在根本性缺陷——它们只测试模型是否"认识"危险，不测试模型是否能在动态具身环境中生成缓解危险的计划。一个能识别"水槽中有手机"是危险的模型，在执行"洗刀"任务时可能完全忽略先将手机从水槽中取出。这种"知识-行动"的脱节从未被系统化量化。

核心矛盾：静态 QA 评估中的高准确率给人一种虚假的安全感——模型"知道"什么是危险的，但在需要同时执行任务和缓解危险时，它们系统性地优先完成任务而忽视安全。QA 性能是具身安全的糟糕代理。

本文目标：（1）构建一个将危险识别与主动缓解结合评估的具身基准；（2）量化 QA 识别与具身缓解之间的对齐差距；（3）探索多代理框架是否能改善这一差距。

切入角度：扩展 ALFRED 基准（基于 AI2-THOR 的具身指令跟随任务），在 30 个厨房环境中引入六类真实世界安全隐患。利用预渲染轨迹提供地面真相历史，隔离"安全推理能力"与"任务执行能力"。

核心 idea：在同一场景上同时运行 QA 评估（能否识别危险）和具身评估（能否在执行任务的同时缓解危险），通过对齐率量化两者之间的差距。

方法详解¶

整体框架¶

SafetyALFRED 将安全约束规划建模为元组 \(\mathcal{P} = \langle \mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{G}, \mathcal{H}, \mathcal{R}_{\text{safe}} \rangle\)，要求安全意识策略 \(\pi^*\) 在存在危险时优先执行修正动作 \(\mathcal{R}_{\text{safe}}(h_i, s_t)\)，只有在无危险状态下才推进任务目标。评估管线包括：（1）环境扰动引入危险；（2）QA 任务中模型作为安全评判者识别危险；（3）具身任务中模型生成包含缓解的计划。

关键设计¶

六类厨房安全隐患:
- 功能：覆盖真实世界厨房事故的主要类型
- 核心思路：基于厨房事故统计定义六个类别：家电误用（微波炉中放金属/易燃物）、食品变质（冰箱门未关）、跌倒/绊倒（柜门未关）、火灾隐患（炉灶打开）、财产损害（水敏物品在水槽中）、不卫生（目标物在脏地板上）。每类定义了环境条件谓词和修正动作
- 设计动机：这六类覆盖了从高频（跌倒/绊倒是最常见伤害源）到高破坏性（火灾是最具破坏性的事故类型）的完整风险谱
双设置评估（QA + 具身）:
- 功能：量化抽象安全知识到具体行为的转化差距
- 核心思路：同一模型在两个独立实例中评估同一场景——QA 实例作为外部安全评判者判断是否存在危险（通过结构+NLI 两阶段验证），具身实例在执行家务任务时逐帧生成下一步动作和子目标。对齐率 \(\mathcal{A} = \frac{1}{K}\sum_{k=1}^{K}\mathbb{I}(v_{ik} = a_{ik})\) 衡量 QA 识别与具身缓解的一致性
- 设计动机：这种设计直接暴露"知道但不做"的问题，是对现有纯 QA 评估的根本性补充
多代理框架:
- 功能：尝试通过角色分离改善安全缓解
- 核心思路：将危险识别与缓解解耦——专门的安全评判代理负责识别危险并将安全信息传递给具身代理。这测试了"如果模型被告知存在危险，它是否能缓解"的假设
- 设计动机：如果单代理的失败源于任务干扰（执行任务分散了对安全的注意力），那么多代理分工应该改善性能

损失函数 / 训练策略¶

本文是评估性工作，不涉及模型训练。所有模型使用温度 0 和最大 512 token 的设置。

实验关键数据¶

主实验¶

11 个 MLLM 在 QA 识别和具身缓解上的表现对比。

模型	QA 识别（有元数据）	具身缓解（有元数据）	差距
Qwen 2.5 VL 72B	60.8%	12.3%	-48.5%
Qwen 3 VL 32B	57.2%	19.7%	-37.5%
Gemini 1.5 ER	77.9%	45.7%	-32.2%
Gemini 2.5	92.5%	60.1%	-32.4%

多代理改善¶

模型	单代理	多代理	提升
Gemma 3 27b	7.0%	25.1%	+18.1%
Qwen 3 VL 32b	19.7%	32.5%	+12.8%
Qwen 2.5 VL 72b	12.3%	28.5%	+16.2%

关键发现¶

对齐差距惊人：即使是最强的 Gemini 2.5，QA 中 92.5% 的识别率在具身任务中仅转化为 60.1% 的缓解率
模型系统性地优先完成任务而非缓解危险：Qwen 3 VL-32B 在无危险帧的动作预测准确率为 80.7%，但危险缓解成功率仅 19.7%
火灾隐患是唯一在两个设置中都表现良好的类别（炉灶开关状态容易感知和操作），其他类别的差距巨大
多代理框架有帮助但不完全解决问题：即使安全评判代理正确识别了危险，具身代理仍可能不执行缓解动作
模型在安全场景中频繁幻觉危险（>50% 假阳性率），表现出过度保守偏见
模型规模扩大通常降低安全对齐率——更大的模型在 QA 中识别更多但在具身中缓解不成比例

亮点与洞察¶

"知道但不做"的发现极具影响力：它根本性地挑战了当前 MLLM 安全评估的有效性。大量工作用 QA/选择题评估安全性，但本文证明这是不够的
实验设计的控制变量思路值得学习：提供地面真相历史以隔离安全推理、使用视觉-only 和元数据增强两种模式分离感知和推理缺陷
多代理框架的结果揭示了一个更深层的问题：不仅是注意力分配的问题，模型在需要"打断"任务流程插入安全动作时存在根本性的规划困难
可迁移到自动驾驶等领域：安全约束下的规划能力评估是通用需求

局限与展望¶

使用预渲染轨迹而非实时交互，不完全代表真实机器人场景
仅评估三个模型家族（Qwen、Gemma、Gemini），结论的泛化性有限
AI2-THOR 模拟器的厨房危险是简化的，不能完全捕捉真实世界的复杂性和不可预测性
使用 NLI 模型自动评估 QA 响应，可能引入偏差
未探索通过训练数据增强来提升模型具身安全能力的方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统量化 QA 安全识别与具身安全缓解的对齐差距，问题定义新颖
实验充分度: ⭐⭐⭐⭐ 11个模型、6类危险、多种评估指标，但使用预渲染轨迹是简化
写作质量: ⭐⭐⭐⭐ 问题动机清晰，但论文较长且部分分析分散在附录中