跳转至

Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions

会议: ACL 2025
arXiv: 2408.02544
代码: https://github.com/xbmxb/EnvDistraction
领域: LLM Agent / GUI Agent / 安全
关键词: GUI agent, environmental distraction, faithfulness, multimodal agent, robustness

一句话总结

本文首次系统研究了多模态 GUI Agent 对环境干扰(弹窗广告、推荐内容等)的脆弱性,在无恶意攻击的自然场景下,即使最强的 MLLM(包括GPT-4o)也有 20-40% 的概率被环境中的无关内容分散注意力而执行偏离用户目标的操作。

研究背景与动机

  1. 领域现状:GUI Agent 使用 MLLM 理解屏幕截图并预测操作(点击、输入等),是 LLM Agent 的重要应用方向。当前研究主要关注提升动作预测的准确性。
  2. 现有痛点
  3. 现有研究假设环境是"干净的",忽略了真实 GUI 环境中的大量干扰信息(广告、弹窗、推荐内容等)
  4. 安全研究关注恶意攻击和越狱,但忽视了非恶意但干扰性的环境内容
  5. 没有系统评估 Agent 对环境干扰的忠实度(faithfulness)
  6. 核心矛盾:GUI Agent 需要感知整个屏幕来理解环境,但屏幕上不可避免地包含与用户目标无关的诱导性内容
  7. 本文要解决什么? 量化 GUI Agent 对环境干扰的脆弱程度,分析影响因素
  8. 切入角度:设计一个通用设置——用户善意、Agent 善意、环境非恶意但有干扰——这比对抗攻击更贴近现实
  9. 核心 idea 一句话:在 GUI 屏幕中注入四类自然干扰(弹窗、搜索推荐、内容推荐、聊天消息),测试 10 个 MLLM 发现即使最强模型也难以保持对用户目标的忠实。

方法详解

整体框架

构造含干扰的 GUI 环境 → 定义三种工作模式(不同感知级别)→ 评估 10 个 MLLM → 将动作分为 Gold(正确)/ Distracted(被干扰)/ Invalid(无效)→ 分析干扰影响因素。

关键设计

  1. 四类干扰场景
  2. 弹窗(Pop-up):覆盖在页面上的广告/活动弹窗
  3. 搜索(Search):搜索结果中出现的赞助/推广内容
  4. 推荐(Recommendation):信息流中的推荐内容
  5. 聊天(Chat):即时消息通知/社交媒体通知
  6. 设计动机:覆盖了真实 GUI 使用中最常见的干扰类型

  7. 三种工作模式

  8. HTML 模式:Agent 仅看到 HTML 代码,最低感知
  9. 截图模式:Agent 看到屏幕截图,视觉感知
  10. 截图+标注模式:截图上叠加元素标注(Set-of-Mark),最高感知
  11. 设计动机:测试不同感知级别下干扰的影响是否不同

  12. 评估框架

  13. 每个动作标记为 Gold(正确执行用户目标)、Distracted(执行了干扰内容的操作)、Invalid(其他无效动作)
  14. \(\text{Distraction Rate} = |a_{dist}| / (|a_{gold}| + |a_{dist}| + |a_{other}|)\)
  15. 设计动机:区分"被干扰"和"一般性失败"——前者更严重因为可能导致不可控行为

实验关键数据

主实验(10 个 MLLM 的干扰率)

模型 Pop-up Search Recommend Chat 平均干扰率
GPT-4o ~20% ~25% ~30% ~15% ~22%
Claude 3.5 ~25% ~28% ~35% ~20% ~27%
Qwen-VL ~30% ~35% ~40% ~25% ~32%
专用 GUI Agent ~25% ~30% ~35% ~20% ~27%

消融:不同感知模式的影响

感知模式 平均 Gold 率 平均干扰率
HTML ~55% ~15%
截图 ~50% ~28%
截图+标注 ~52% ~30%

关键发现

  • 所有测试模型都对环境干扰脆弱:包括 GPT-4o 和专用 GUI Agent,没有例外
  • 视觉感知反而增加干扰率:截图模式比 HTML 模式干扰率更高——因为视觉上的干扰(鲜艳按钮、弹窗)比 HTML 代码中的干扰更具诱导性
  • 推荐和搜索干扰最严重:因为这些内容语义上与用户目标有一定相关性,更容易混淆
  • 增强感知不能解决问题:Set-of-Mark 标注让 Agent 看到了更多信息,但也看到了更多干扰
  • 对抗性环境注入可行:攻击者可以通过精心设计干扰内容远程控制 Agent 行为

亮点与洞察

  • "环境忠实度"是 GUI Agent 的一个被忽视的重要维度:大家都在优化准确率,但如果 Agent 连"不被广告吸引"都做不到,部署就是危险的。可迁移到所有交互式 Agent 的安全评估
  • "视觉感知越强越容易被干扰"的反直觉发现:意味着多模态 Agent 的视觉能力是一把双刃剑——感知能力提升的同时需要同步提升判断力
  • 区分"善意但有风险"vs"恶意攻击"的设置很重要:大多数安全研究关注极端攻击场景,但实际部署中更可能遭遇的是自然干扰

局限性 / 可改进方向

  • 评估基于模拟数据集:真实 GUI 环境的干扰更复杂
  • 仅评估单步动作:多步轨迹中干扰的累积效应未研究
  • 防御方法(偏好提示)效果有限:需要更根本的解决方案
  • 未测试微调后的 GUI Agent 是否更抗干扰:训练数据中加入干扰可能有效

相关工作与启发

  • vs ToolEmu (Ruan et al., 2024):ToolEmu 关注恶意输入的安全风险,本文关注自然环境的忠实度风险——互补
  • vs WebArena (Zhou et al., 2024):WebArena 的测试环境是"干净的",本文呼吁在评估中加入干扰
  • vs R2D2:R2D2 用 replay buffer 改善导航,但未考虑环境中的干扰内容

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 GUI Agent 的环境干扰脆弱性,填补重要空白
  • 实验充分度: ⭐⭐⭐⭐ 10 个模型×4 种干扰×3 种模式,非常全面
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,与已有安全研究的区分明确
  • 价值: ⭐⭐⭐⭐⭐ 对 GUI Agent 的安全部署有重要警示意义