MIP against Agent: Malicious Image Patches Hijacking Multimodal OS Agents¶

会议: NeurIPS 2025
arXiv: 2503.10809
代码: https://github.com/AIchberger/mip-against-agent
领域: 多模态VLM / AI安全 / Agent攻击
关键词: adversarial attack, OS agent, malicious image patch, VLM security, computer worm

一句话总结¶

揭示针对多模态OS Agent的新型攻击向量——Malicious Image Patches (MIPs)：在屏幕截图中嵌入人类不可察觉的对抗性扰动图像块，当OS Agent截屏时自动触发恶意行为（如数据泄露、内存溢出），且可跨用户指令、屏幕布局和屏幕解析器泛化，甚至具备"计算机蠕虫"般的自传播潜力。

背景与动机¶

OS Agent（如Claude Computer Use、Windows Agent Arena）让VLM直接控制用户电脑——执行鼠标点击、键盘输入等操作。与被动输出文本的传统VLM不同，OS Agent的失败或被操控会产生直接的现实后果（文件删除、数据泄露、金融损失）。现有攻击（pop-up、prompt injection）依赖文本管道访问且易被过滤检测，而OS Agent依赖截屏导航的特性提供了全新的视觉域攻击面。

核心问题¶

能否通过仅操控屏幕上的一个小图像区域（如桌面壁纸或社交媒体图片），就劫持OS Agent执行任意恶意行为？这种攻击能否跨指令、跨屏幕布局泛化？

方法详解¶

整体框架¶

MIP攻击流程： 1. 攻击者用PGD在VLM参数上优化图像patch内的对抗性扰动 2. 将MIP嵌入桌面壁纸或社交媒体帖子 3. 当OS Agent截屏导航时捕获MIP 4. VLM处理包含MIP的截图后，输出恶意API调用序列（如打开终端执行恶意命令）

关键设计¶

形式化约束处理：OS Agent有多组件pipeline（screen parser→VLM→APIs），攻击需满足：
扰动限制在图像patch区域ℛ内（约1/7屏幕面积）
ε=25/255的∞范数约束确保人眼不可察觉
不得改变screen parser的SOM检测结果
离散整数像素约束
需适配VLM的图像resize操作
Universal MIPs：从targeted（单一prompt+截图对优化）扩展到universal（对多个prompt×多个截图联合优化）。方法：每步随机batch采样8对(prompt, screenshot)做PGD更新，直到所有对上的malicious target token概率超99%。
两种攻击载体：
Desktop setting：MIP嵌入桌面壁纸，1000×1000 pixels，边角衰减减少视觉伪影
Social media setting：MIP嵌入社交媒体帖子图片，900×900 pixels
两种恶意行为：
ym：33-token程序，打开终端造成内存溢出
yw：52-token程序，打开浏览器导航到恶意网站
OS Agent蠕虫概念：如果恶意行为包括分享/转发含MIP的帖子，MIP可自传播——首次提出"OS Agent计算机蠕虫"概念

实验环境¶

Microsoft Windows Agent Arena (WAA)，154个预定义任务
VLM：Llama 3.2 Vision系列（11B PT/IT、90B PT/IT）
Screen parser：OmniParser和GroundingDINO+TesseractOCR
硬件：8×A100

实验关键数据¶

设置	目标	Seen prompts ASR	Unseen prompts ASR	Unseen screens ASR
Desktop targeted	yw	1.0	0.3+	0.0
Desktop universal	yw	~0.9	~0.8	~0.7
Desktop universal	ym	~1.0	~0.9	~0.8
Social universal	yw	~0.9	~0.7	~0.6

关键发现： - Universal MIPs可以泛化到未见过的prompts、screens和parsers - 跨parser迁移：OmniParser→GroundingDINO仍然有效 - 跨执行步骤：Agent完成多步benign操作后遇到MIP仍被劫持 - 跨VLM：单个MIP可同时攻击11B PT + 11B IT + 90B IT，ASR≥90% - 未见VLM的迁移性差——与已有adversarial image研究一致

亮点 / 我学到了什么¶

OS Agent的视觉攻击面比文本攻击面更危险——MIP难以被过滤检测，可广泛传播
1/7屏幕面积、25/255扰动就足以编码完整的恶意程序——信息编码能力惊人
计算机蠕虫概念极具前瞻性——当MIP导致Agent分享含MIP的帖子时，攻击自我传播
对screen parser不变性的处理（确保SOM不被扰动改变）是工程上的关键约束
universal攻击通过多样化训练集实现泛化——与NoisyRollout的"diversity→generalization"思路类似但用于攻击

局限性 / 可改进方向¶

需要白盒访问VLM参数来做PGD——黑盒setting下效果未知
跨VLM系列迁移性差（Llama→其他模型系列）
仅在WAA环境测试，real-world OS（macOS、Linux）未验证
防御策略仅初步讨论（stochastic augmentation、verifier module）未实现
ε=25/255在社交媒体的JPEG压缩后是否仍有效？

与相关工作的对比¶

vs Agent Smith (ICML 2024)：Agent Smith对抗全图攻击多Agent网络，MIP只需控制一个小patch且针对OS Agent pipeline
vs Pop-up attacks：Pop-up可见且易被过滤，MIP人眼不可见且编码在图像像素中
vs Prompt injection：需要文本管道访问，MIP完全在视觉域操作
vs Wu et al. (ICLR 2025)：他们通过误导captioning模型间接攻击，MIP直接操控VLM输出

与我的研究方向的关联¶

对VLM safety研究极其重要——OS Agent如果要大规模部署，MIP是必须解决的安全问题
与SAE for VLM (2504.02821)互补——SAE的concept-level filtering可能是一种防御MIP的方式
启发：能否用adversarial training或vision encoder robustness来防御MIP？这是一个重要的研究方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统研究OS Agent的视觉对抗攻击，computer worm概念极具前瞻性
实验充分度: ⭐⭐⭐⭐⭐ Targeted/Universal、跨prompt/screen/parser/VLM/execution step的全面评估
写作质量: ⭐⭐⭐⭐⭐ 形式化清晰，Figure 1-2极具说服力，constraints处理严谨
对我的价值: ⭐⭐⭐⭐⭐ Agent安全是未来关键方向，MIP定义了需要防御的威胁模型