跳转至

AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents

会议: NeurIPS 2025
arXiv: 2503.09780
代码: https://github.com/facebookresearch/ai-agent-privacy
领域: AI安全 / LLM Agent
关键词: AI agent privacy, data minimization, web navigation, privacy benchmark, inference-time leakage

一句话总结

提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。

研究背景与动机

  1. 领域现状:自主 AI Agent(如 Web 导航代理)正快速发展,能代替用户完成支付账单、管理日程等复杂任务。这些任务不可避免地需要访问用户的敏感信息(信用卡号、邮件内容等)。
  2. 现有痛点:现有隐私评估方法主要是探测式(Probing)——直接问 LLM "在这个场景下分享这条信息合适吗?",但这只测试了 LLM 的隐私推理能力,不能反映 Agent 在实际执行多步 Web 任务时的真实行为。
  3. 核心矛盾:Agent 需要能访问用户的敏感数据来完成任务,但也需要遵循"数据最小化"原则——只使用完成任务所必需的信息,不泄露无关敏感数据。现有评估要么不是端到端的(只做探测),要么在模拟环境中(不够真实)。
  4. 本文要解决什么? 如何在真实 Web 环境中端到端地评估 AI Agent 是否遵循数据最小化原则?
  5. 切入角度:基于 WebArena/VisualWebArena 搭建完全可控的真实 Web 环境(Reddit/GitLab/Shopping),构造包含相关和无关敏感信息的任务,用 LLM-as-a-judge 自动检测 Agent 轨迹中的隐私泄露。
  6. 核心idea一句话:在真实 Web 交互中评估 Agent 对用户数据的实际使用行为,而非仅测试其关于隐私的推理判断。

方法详解

整体框架

AgentDAM 由三部分组成:(1) 任务设计:246 个任务,每个包含 user_instruction(要完成的任务)、user_data(包含相关和无关敏感信息的合成数据)、以及标注的 sensitive_data(不应被使用的敏感字段);(2) 端到端评估:Agent 在真实 Web 服务器上执行任务,每一步行动都被记录和分析;(3) 双轴评分:Utility(任务完成率)和 Privacy(隐私不泄露率)。

关键设计

  1. 敏感数据分类体系:
  2. 做什么:定义 6 大类敏感信息:个人/联系信息、宗教/文化/政治认同、雇主/就业数据、财务信息、教育历史、医疗数据
  3. 核心思路:由人工标注者创建 Data Seed(包含 plot + sensitive_data),然后用 LLM 生成完整的 user_data(如聊天记录),确保敏感信息自然嵌入但与任务无关
  4. 设计动机:敏感信息必须是上下文中自然出现但与当前任务不相关的,模拟真实场景中 Agent 可能"顺手"使用多余信息的情况

  5. LLM-as-a-Judge 隐私评估器:

  6. 做什么:自动检测 Agent 每一步行动中是否包含 sensitive_data 的泄露
  7. 核心思路:用 GPT-4o 做 CoT 推理判断,分析 Agent 的输出文本是否包含标注的敏感信息(不只是关键词匹配,还考虑同义替换和匿名化)
  8. 设计动机:隐私泄露不能只做字符串匹配——Agent 可能改写信息但仍泄露核心内容。人工评估与 LLM Judge 的一致率达 98%

  9. 缓解策略:

  10. 预过滤(用 LLM 先过滤 user_data)和后过滤(检查最终输出)效果不佳
  11. CoT 隐私系统提示效果最好:在系统提示中告知 Agent 数据最小化原则 + 提供少样本推理示例

实验关键数据

主实验(隐私与效用评估)

模型 Utility ↑ Privacy(无缓解) ↑ Privacy(CoT提示) ↑ Utility(CoT提示)
gpt-4o 0.455 0.638 0.915 0.415
gpt-4o-mini 0.341 0.541 0.821 0.321
gpt-4-turbo 0.480 0.748 0.894 0.423
llama-3.2-90b 0.333 0.882 0.923 0.297
llama-3.3-70b 0.402 0.882 0.939 0.386
claude-cua 0.350 0.902 0.935 0.309

探测式 vs 端到端评估对比

模型 AgentDAM Privacy Probing Privacy 差距
gpt-4o 0.646 0.915 Probing 高估 27%
gpt-4o-mini 0.557 0.890 Probing 高估 33%
gpt-4-turbo 0.732 0.846 Probing 高估 11%
llama-3.2-90b 0.882 0.748 Probing 低估 13%
llama-3.3-70b 0.882 0.817 Probing 低估 7%

关键发现

  • 探测式方法严重高估 GPT 系列的隐私能力:GPT-4o 探测时 91.5% 的隐私分数,实际执行时只有 63.8%。说明"知道什么是隐私"和"执行时保护隐私"是两回事
  • Llama 和 Claude 的原始隐私表现(~88-90%)远好于 GPT 系列(~54-75%),但 GPT 的任务完成率更高
  • CoT 隐私提示是最有效的缓解策略,能将 GPT-4o 的隐私分数从 63.8% 提升到 91.5%,但代价是任务完成率从 45.5% 降到 41.5%——存在明确的 utility-privacy 权衡
  • 多模态输入(加入截图)对任务性能有小幅提升但对隐私几乎无影响

亮点与洞察

  • "知行分离"的核心发现:LLM 可以正确推理隐私规则,但在复杂多步骤 Web 任务中执行时却泄露信息。这揭示了评估 AI 安全需要端到端在真实环境中测试,不能只靠探测
  • benchmark 设计巧妙:敏感信息的"不相关但自然嵌入"设计模拟了真实场景——用户给 Agent 的聊天记录里确实会包含各种不相关的个人信息
  • 隐私与效用的 trade-off 量化对实际部署 AI Agent 有直接指导价值

局限性 / 可改进方向

  • 只覆盖非对抗(benign)场景,没有考虑恶意提示注入或对抗性攻击
  • 246 个任务的规模有限,跨环境类型的覆盖面可以更广
  • 敏感信息的分类和标注存在主观性,不同文化背景对"敏感"的定义可能不同
  • LLM-as-a-Judge 虽然 98% 与人一致,但对微妙的隐私推理仍可能出错

相关工作与启发

  • vs ConfAIde/CI-Bench:只做探测式评估,不运行 Agent;本文证明了探测严重高估实际隐私能力
  • vs PrivacyLens:在模拟环境中评估,本文在真实 Web 环境中端到端测试
  • vs AirGapAgent:关注对抗性攻击下的信息泄露,本文关注非对抗场景下的"无意泄露"

评分

  • 新颖性: ⭐⭐⭐⭐ 首个在真实 Web 环境中端到端评估 Agent 数据最小化的 benchmark
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 GPT/Llama/Claude 6 个模型,探测 vs 端到端对比有说服力
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验设计合理
  • 价值: ⭐⭐⭐⭐ 对 AI Agent 安全部署的评估有直接指导意义