Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions¶

会议: ACL 2025
arXiv: 2408.02544
代码: https://github.com/xbmxb/EnvDistraction
领域: LLM Agent / GUI Agent / 安全
关键词: GUI agent, environmental distraction, faithfulness, multimodal agent, robustness

一句话总结¶

本文首次系统研究了多模态 GUI Agent 对环境干扰（弹窗广告、推荐内容等）的脆弱性，在无恶意攻击的自然场景下，即使最强的 MLLM（包括GPT-4o）也有 20-40% 的概率被环境中的无关内容分散注意力而执行偏离用户目标的操作。

研究背景与动机¶

领域现状：GUI Agent 使用 MLLM 理解屏幕截图并预测操作（点击、输入等），是 LLM Agent 的重要应用方向。当前研究主要关注提升动作预测的准确性。
现有痛点：
现有研究假设环境是"干净的"，忽略了真实 GUI 环境中的大量干扰信息（广告、弹窗、推荐内容等）
安全研究关注恶意攻击和越狱，但忽视了非恶意但干扰性的环境内容
没有系统评估 Agent 对环境干扰的忠实度(faithfulness)
核心矛盾：GUI Agent 需要感知整个屏幕来理解环境，但屏幕上不可避免地包含与用户目标无关的诱导性内容
本文要解决什么？ 量化 GUI Agent 对环境干扰的脆弱程度，分析影响因素
切入角度：设计一个通用设置——用户善意、Agent 善意、环境非恶意但有干扰——这比对抗攻击更贴近现实
核心 idea 一句话：在 GUI 屏幕中注入四类自然干扰（弹窗、搜索推荐、内容推荐、聊天消息），测试 10 个 MLLM 发现即使最强模型也难以保持对用户目标的忠实。

方法详解¶

整体框架¶

构造含干扰的 GUI 环境 → 定义三种工作模式（不同感知级别）→ 评估 10 个 MLLM → 将动作分为 Gold（正确）/ Distracted（被干扰）/ Invalid（无效）→ 分析干扰影响因素。

关键设计¶

四类干扰场景：
弹窗(Pop-up)：覆盖在页面上的广告/活动弹窗
搜索(Search)：搜索结果中出现的赞助/推广内容
推荐(Recommendation)：信息流中的推荐内容
聊天(Chat)：即时消息通知/社交媒体通知
设计动机：覆盖了真实 GUI 使用中最常见的干扰类型
三种工作模式：
HTML 模式：Agent 仅看到 HTML 代码，最低感知
截图模式：Agent 看到屏幕截图，视觉感知
截图+标注模式：截图上叠加元素标注（Set-of-Mark），最高感知
设计动机：测试不同感知级别下干扰的影响是否不同
评估框架：
每个动作标记为 Gold（正确执行用户目标）、Distracted（执行了干扰内容的操作）、Invalid（其他无效动作）
\(\text{Distraction Rate} = |a_{dist}| / (|a_{gold}| + |a_{dist}| + |a_{other}|)\)
设计动机：区分"被干扰"和"一般性失败"——前者更严重因为可能导致不可控行为

实验关键数据¶

主实验（10 个 MLLM 的干扰率）¶

模型	Pop-up	Search	Recommend	Chat	平均干扰率
GPT-4o	~20%	~25%	~30%	~15%	~22%
Claude 3.5	~25%	~28%	~35%	~20%	~27%
Qwen-VL	~30%	~35%	~40%	~25%	~32%
专用 GUI Agent	~25%	~30%	~35%	~20%	~27%

消融：不同感知模式的影响¶

感知模式	平均 Gold 率	平均干扰率
HTML	~55%	~15%
截图	~50%	~28%
截图+标注	~52%	~30%

关键发现¶

所有测试模型都对环境干扰脆弱：包括 GPT-4o 和专用 GUI Agent，没有例外
视觉感知反而增加干扰率：截图模式比 HTML 模式干扰率更高——因为视觉上的干扰（鲜艳按钮、弹窗）比 HTML 代码中的干扰更具诱导性
推荐和搜索干扰最严重：因为这些内容语义上与用户目标有一定相关性，更容易混淆
增强感知不能解决问题：Set-of-Mark 标注让 Agent 看到了更多信息，但也看到了更多干扰
对抗性环境注入可行：攻击者可以通过精心设计干扰内容远程控制 Agent 行为

亮点与洞察¶

"环境忠实度"是 GUI Agent 的一个被忽视的重要维度：大家都在优化准确率，但如果 Agent 连"不被广告吸引"都做不到，部署就是危险的。可迁移到所有交互式 Agent 的安全评估
"视觉感知越强越容易被干扰"的反直觉发现：意味着多模态 Agent 的视觉能力是一把双刃剑——感知能力提升的同时需要同步提升判断力
区分"善意但有风险"vs"恶意攻击"的设置很重要：大多数安全研究关注极端攻击场景，但实际部署中更可能遭遇的是自然干扰

局限性 / 可改进方向¶

评估基于模拟数据集：真实 GUI 环境的干扰更复杂
仅评估单步动作：多步轨迹中干扰的累积效应未研究
防御方法（偏好提示）效果有限：需要更根本的解决方案
未测试微调后的 GUI Agent 是否更抗干扰：训练数据中加入干扰可能有效

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 GUI Agent 的环境干扰脆弱性，填补重要空白
实验充分度: ⭐⭐⭐⭐ 10 个模型×4 种干扰×3 种模式，非常全面
写作质量: ⭐⭐⭐⭐ 问题定义清晰，与已有安全研究的区分明确
价值: ⭐⭐⭐⭐⭐ 对 GUI Agent 的安全部署有重要警示意义