Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions¶
会议: ACL 2025
arXiv: 2408.02544
代码: https://github.com/xbmxb/EnvDistraction
领域: LLM Agent / GUI Agent / 安全
关键词: GUI agent, environmental distraction, faithfulness, multimodal agent, robustness
一句话总结¶
本文首次系统研究了多模态 GUI Agent 对环境干扰(弹窗广告、推荐内容等)的脆弱性,在无恶意攻击的自然场景下,即使最强的 MLLM(包括GPT-4o)也有 20-40% 的概率被环境中的无关内容分散注意力而执行偏离用户目标的操作。
研究背景与动机¶
- 领域现状:GUI Agent 使用 MLLM 理解屏幕截图并预测操作(点击、输入等),是 LLM Agent 的重要应用方向。当前研究主要关注提升动作预测的准确性。
- 现有痛点:
- 现有研究假设环境是"干净的",忽略了真实 GUI 环境中的大量干扰信息(广告、弹窗、推荐内容等)
- 安全研究关注恶意攻击和越狱,但忽视了非恶意但干扰性的环境内容
- 没有系统评估 Agent 对环境干扰的忠实度(faithfulness)
- 核心矛盾:GUI Agent 需要感知整个屏幕来理解环境,但屏幕上不可避免地包含与用户目标无关的诱导性内容
- 本文要解决什么? 量化 GUI Agent 对环境干扰的脆弱程度,分析影响因素
- 切入角度:设计一个通用设置——用户善意、Agent 善意、环境非恶意但有干扰——这比对抗攻击更贴近现实
- 核心 idea 一句话:在 GUI 屏幕中注入四类自然干扰(弹窗、搜索推荐、内容推荐、聊天消息),测试 10 个 MLLM 发现即使最强模型也难以保持对用户目标的忠实。
方法详解¶
整体框架¶
构造含干扰的 GUI 环境 → 定义三种工作模式(不同感知级别)→ 评估 10 个 MLLM → 将动作分为 Gold(正确)/ Distracted(被干扰)/ Invalid(无效)→ 分析干扰影响因素。
关键设计¶
- 四类干扰场景:
- 弹窗(Pop-up):覆盖在页面上的广告/活动弹窗
- 搜索(Search):搜索结果中出现的赞助/推广内容
- 推荐(Recommendation):信息流中的推荐内容
- 聊天(Chat):即时消息通知/社交媒体通知
-
设计动机:覆盖了真实 GUI 使用中最常见的干扰类型
-
三种工作模式:
- HTML 模式:Agent 仅看到 HTML 代码,最低感知
- 截图模式:Agent 看到屏幕截图,视觉感知
- 截图+标注模式:截图上叠加元素标注(Set-of-Mark),最高感知
-
设计动机:测试不同感知级别下干扰的影响是否不同
-
评估框架:
- 每个动作标记为 Gold(正确执行用户目标)、Distracted(执行了干扰内容的操作)、Invalid(其他无效动作)
- \(\text{Distraction Rate} = |a_{dist}| / (|a_{gold}| + |a_{dist}| + |a_{other}|)\)
- 设计动机:区分"被干扰"和"一般性失败"——前者更严重因为可能导致不可控行为
实验关键数据¶
主实验(10 个 MLLM 的干扰率)¶
| 模型 | Pop-up | Search | Recommend | Chat | 平均干扰率 |
|---|---|---|---|---|---|
| GPT-4o | ~20% | ~25% | ~30% | ~15% | ~22% |
| Claude 3.5 | ~25% | ~28% | ~35% | ~20% | ~27% |
| Qwen-VL | ~30% | ~35% | ~40% | ~25% | ~32% |
| 专用 GUI Agent | ~25% | ~30% | ~35% | ~20% | ~27% |
消融:不同感知模式的影响¶
| 感知模式 | 平均 Gold 率 | 平均干扰率 |
|---|---|---|
| HTML | ~55% | ~15% |
| 截图 | ~50% | ~28% |
| 截图+标注 | ~52% | ~30% |
关键发现¶
- 所有测试模型都对环境干扰脆弱:包括 GPT-4o 和专用 GUI Agent,没有例外
- 视觉感知反而增加干扰率:截图模式比 HTML 模式干扰率更高——因为视觉上的干扰(鲜艳按钮、弹窗)比 HTML 代码中的干扰更具诱导性
- 推荐和搜索干扰最严重:因为这些内容语义上与用户目标有一定相关性,更容易混淆
- 增强感知不能解决问题:Set-of-Mark 标注让 Agent 看到了更多信息,但也看到了更多干扰
- 对抗性环境注入可行:攻击者可以通过精心设计干扰内容远程控制 Agent 行为
亮点与洞察¶
- "环境忠实度"是 GUI Agent 的一个被忽视的重要维度:大家都在优化准确率,但如果 Agent 连"不被广告吸引"都做不到,部署就是危险的。可迁移到所有交互式 Agent 的安全评估
- "视觉感知越强越容易被干扰"的反直觉发现:意味着多模态 Agent 的视觉能力是一把双刃剑——感知能力提升的同时需要同步提升判断力
- 区分"善意但有风险"vs"恶意攻击"的设置很重要:大多数安全研究关注极端攻击场景,但实际部署中更可能遭遇的是自然干扰
局限性 / 可改进方向¶
- 评估基于模拟数据集:真实 GUI 环境的干扰更复杂
- 仅评估单步动作:多步轨迹中干扰的累积效应未研究
- 防御方法(偏好提示)效果有限:需要更根本的解决方案
- 未测试微调后的 GUI Agent 是否更抗干扰:训练数据中加入干扰可能有效
相关工作与启发¶
- vs ToolEmu (Ruan et al., 2024):ToolEmu 关注恶意输入的安全风险,本文关注自然环境的忠实度风险——互补
- vs WebArena (Zhou et al., 2024):WebArena 的测试环境是"干净的",本文呼吁在评估中加入干扰
- vs R2D2:R2D2 用 replay buffer 改善导航,但未考虑环境中的干扰内容
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 GUI Agent 的环境干扰脆弱性,填补重要空白
- 实验充分度: ⭐⭐⭐⭐ 10 个模型×4 种干扰×3 种模式,非常全面
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,与已有安全研究的区分明确
- 价值: ⭐⭐⭐⭐⭐ 对 GUI Agent 的安全部署有重要警示意义