How Adversarial Environments Mislead Agentic AI¶

会议: ACL 2026
arXiv: 2604.18874
代码: GitHub
领域: AI安全 / Agent鲁棒性
关键词: 对抗环境注入, 工具信任鸿沟, 深度攻击, 广度攻击, Agent鲁棒性分裂

一句话总结¶

本文形式化了"对抗环境注入"（AEI）威胁模型，将其分解为广度攻击（投毒检索结果导致认知漂移）和深度攻击（注入幻影节点构造导航陷阱导致策略崩溃），在 11,000+ 次实验中发现两种攻击的鲁棒性完全独立——"鲁棒性分裂"表明当前单点防御策略根本不够。

研究背景与动机¶

领域现状：工具增强的 LLM Agent 依赖搜索引擎、引文索引等外部工具来接地生成内容。RAG 安全已成为活跃研究领域，现有工作集中在 prompt 注入和语料库投毒两类内容层面的攻击。

现有痛点：(1) 现有评估只关注"Agent 能否正确使用工具"，从未考虑"如果工具说谎怎么办"——存在信任鸿沟；(2) RAG 投毒研究只覆盖了半个攻击面（内容层面），忽略了结构层面的攻击；(3) 缺乏标准化、可复现的对抗鲁棒性测试框架。

核心矛盾：减少幻觉的正确行为（遵从外部信息）恰好增加了对抗脆弱性——"接地悖论"。Agent 接受环境呈现的现实，缺乏独立验证通道，就像楚门在虚构世界中生活。

本文目标：(1) 形式化工具使用 Agent 面临的完整攻击面；(2) 区分认知层面和导航层面两种正交的攻击维度；(3) 量化二者的独立性。

切入角度：类比"楚门的世界"——Agent 接受工具返回的内容为真实，攻击者通过"Man-in-the-Tool"构造虚假世界。深度攻击是全新攻击类别——不需要 Agent 相信虚假信息，只需将其困在导航循环中。

核心 idea：AEI 分解为广度攻击（认知漂移）和深度攻击（策略崩溃），两者利用完全不同的机制——前者攻击信念更新，后者攻击导航规划——因此对一种攻击的防御不能保护另一种。

方法详解¶

整体框架¶

Potemkin 框架作为透明的 Man-in-the-Tool 代理运行：拦截 Agent 的工具调用响应，应用对抗转换后返回。支持 MCP Server 和 Python Library 双模式。广度攻击通过投毒检索结果，深度攻击通过注入引文图的幻影节点。共 7 个实验分两个战役，~11,000 次任务运行。

关键设计¶

广度攻击 (The Illusion):
- 功能：通过投毒检索结果诱导 Agent 认知漂移，使其接受虚假信息
- 核心思路：向知识库注入恶意文本，控制两个参数：污染率 \(\rho \in \{0.1, 0.3, 0.5\}\)（10 条检索结果中的 1/3/5 条）和语言风格（Professor 正式学术/Wire 中性新闻/Rumor 非正式含糊）。用漂移率 \(\text{DR} = \mathbb{E}[\mathbb{1}[r \neq y] | r \neq \bot]\) 衡量——排除弃权只计算自信但错误的判断
- 设计动机：污染率和风格的正交变化使得可以分离"需要多少毒"和"什么风格的毒最有效"两个问题。排除弃权的 DR 指标比传统 ASR 更精确地捕捉认知状态变化
深度攻击 (The Maze):
- 功能：通过注入幻影引文节点构造导航陷阱，消耗 Agent 的步骤预算
- 核心思路：在信息图中注入幻影节点 \(\mathcal{P}\) 形成循环或死胡同，控制环长 \(\ell \in \{2,3,5\}\) 和可信度梯度（Phantom 高保真/Signal 轻微不一致/Glitch 明显异常）。用进入率 \(\text{ER} = \mathbb{E}[\mathbb{1}[\exists t: s_t \in \mathcal{P}]]\) 和步骤预算浪费 \(\text{BW} = \frac{|\{t: s_t \in \mathcal{P}\}|}{|\{t: s_t \in V \cup \mathcal{P}\}|}\) 衡量
- 设计动机：深度攻击是全新攻击类别——不修改内容只修改结构，Agent 即使不相信任何虚假内容也会被困在循环中。可信度梯度与广度攻击的风格梯度平行，支持跨维度分析
"诚实的惩罚" (The Punishment of Honesty):
- 功能：揭示 Agent 对认知标记的系统性误校准
- 核心思路：构造最小对（相同声明只改变认知标记，如"results suggest"vs"results prove"），用 McNemar 检验分析。发现含犹豫词的 TRUE 声明被拒绝率是自信 TRUE 声明的 2.1 倍，但含犹豫词的 FALSE 声明并不更容易被检测
- 设计动机：揭示了一个危险的不对称性——攻击者可以通过给真实声明加犹豫词来抑制它们，这在科学和医学领域尤其危险

损失函数 / 训练策略¶

Potemkin 是评估框架，不涉及训练。所有受试 Agent 在 T=0.0 下运行以确保确定性评估，步骤预算为 10 次工具调用。对抗内容由 Gemini 2.5 红队生成，避免生成器-受害者重叠。

实验关键数据¶

主实验¶

广度 vs 深度攻击脆弱性

Agent	基线错误率(%)	漂移率DR(50%污染)	进入率ER(%)
GPT-4o	4.7	58.0	94.6
Claude-3.5-Sonnet	8.0	36.2	25.3
Llama-3-70B	5.4	55.3	5.6†
Qwen2.5-72B	6.8	76.2	96.1
DeepSeek-V3	14.7	66.2	74.7

消融实验¶

风格对漂移率的影响

风格	平均漂移率(%)
Wire (中性)	54.8
Professor (学术)	42.4
Rumor (含糊)	36.9

关键发现¶

鲁棒性分裂：对一种攻击的抵抗往往增加对另一种的脆弱性。Claude 广度攻击最强（DR=36.2%最低）但深度也较好（ER=25.3%）；GPT-4o 广度中等但深度极差（ER=94.6%）
中性语气最具说服力（Wire 54.8% > Professor 42.4% > Rumor 36.9%）——Agent 被训练不信任过度权威的内容，但无批判地接受中性陈述
污染在 30% 就饱和（40.2%→55.8%），继续增加到 50% 提升微弱（57.9%），攻击者只需少量投毒
被困 Agent 浪费 44-73% 的步骤预算，且与循环长度无关——短循环同样致命

亮点与洞察¶

深度攻击是一类全新的攻击面——不需要修改任何内容，只需修改信息图的结构。这意味着当前所有基于内容检测的 RAG 防御方案对深度攻击完全无效
"诚实的惩罚"是一个令人不安的发现——科学文献中的标准表述（如"results suggest"）反而被 Agent 视为不可信的信号，这直接损害了 Agent 在学术/医学场景的可信度
可信度梯度的平行设计是方法论上的亮点——使广度和深度攻击在同一权威线索轴上可比较

局限与展望¶

实验范围限于引文图导航任务，向其他工具域（事实核查、图RAG投毒）的推广尚在进行
Llama-3 的低进入率更多反映工具参与度不足而非真正的鲁棒性
未测试最新的 o3/Claude 4 等推理型模型
防御策略的探索不足——仅诊断了问题，未提出缓解方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ 深度攻击是全新攻击类别，鲁棒性分裂是重要发现
实验充分度: ⭐⭐⭐⭐⭐ 11000+次运行, 5个Agent, 7个实验, 统计检验完备
写作质量: ⭐⭐⭐⭐⭐ 楚门隐喻贯穿全文，叙事引人入胜且严谨
价值: ⭐⭐⭐⭐⭐ 对Agent安全研究具有范式级意义，Potemkin框架可复用