AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents¶
会议: NeurIPS 2025
arXiv: 2503.09780
代码: https://github.com/facebookresearch/ai-agent-privacy
领域: AI安全 / LLM Agent
关键词: AI agent privacy, data minimization, web navigation, privacy benchmark, inference-time leakage
一句话总结¶
提出 AgentDAM,首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准,包含 246 个跨 Reddit/GitLab/Shopping 的任务,发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%,而 CoT 隐私提示可将泄露率降至 6-8%。
研究背景与动机¶
- 领域现状:自主 AI Agent(如 Web 导航代理)正快速发展,能代替用户完成支付账单、管理日程等复杂任务。这些任务不可避免地需要访问用户的敏感信息(信用卡号、邮件内容等)。
- 现有痛点:现有隐私评估方法主要是探测式(Probing)——直接问 LLM "在这个场景下分享这条信息合适吗?",但这只测试了 LLM 的隐私推理能力,不能反映 Agent 在实际执行多步 Web 任务时的真实行为。
- 核心矛盾:Agent 需要能访问用户的敏感数据来完成任务,但也需要遵循"数据最小化"原则——只使用完成任务所必需的信息,不泄露无关敏感数据。现有评估要么不是端到端的(只做探测),要么在模拟环境中(不够真实)。
- 本文要解决什么? 如何在真实 Web 环境中端到端地评估 AI Agent 是否遵循数据最小化原则?
- 切入角度:基于 WebArena/VisualWebArena 搭建完全可控的真实 Web 环境(Reddit/GitLab/Shopping),构造包含相关和无关敏感信息的任务,用 LLM-as-a-judge 自动检测 Agent 轨迹中的隐私泄露。
- 核心idea一句话:在真实 Web 交互中评估 Agent 对用户数据的实际使用行为,而非仅测试其关于隐私的推理判断。
方法详解¶
整体框架¶
AgentDAM 由三部分组成:(1) 任务设计:246 个任务,每个包含 user_instruction(要完成的任务)、user_data(包含相关和无关敏感信息的合成数据)、以及标注的 sensitive_data(不应被使用的敏感字段);(2) 端到端评估:Agent 在真实 Web 服务器上执行任务,每一步行动都被记录和分析;(3) 双轴评分:Utility(任务完成率)和 Privacy(隐私不泄露率)。
关键设计¶
- 敏感数据分类体系:
- 做什么:定义 6 大类敏感信息:个人/联系信息、宗教/文化/政治认同、雇主/就业数据、财务信息、教育历史、医疗数据
- 核心思路:由人工标注者创建 Data Seed(包含 plot + sensitive_data),然后用 LLM 生成完整的 user_data(如聊天记录),确保敏感信息自然嵌入但与任务无关
-
设计动机:敏感信息必须是上下文中自然出现但与当前任务不相关的,模拟真实场景中 Agent 可能"顺手"使用多余信息的情况
-
LLM-as-a-Judge 隐私评估器:
- 做什么:自动检测 Agent 每一步行动中是否包含 sensitive_data 的泄露
- 核心思路:用 GPT-4o 做 CoT 推理判断,分析 Agent 的输出文本是否包含标注的敏感信息(不只是关键词匹配,还考虑同义替换和匿名化)
-
设计动机:隐私泄露不能只做字符串匹配——Agent 可能改写信息但仍泄露核心内容。人工评估与 LLM Judge 的一致率达 98%
-
缓解策略:
- 预过滤(用 LLM 先过滤 user_data)和后过滤(检查最终输出)效果不佳
- CoT 隐私系统提示效果最好:在系统提示中告知 Agent 数据最小化原则 + 提供少样本推理示例
实验关键数据¶
主实验(隐私与效用评估)¶
| 模型 | Utility ↑ | Privacy(无缓解) ↑ | Privacy(CoT提示) ↑ | Utility(CoT提示) |
|---|---|---|---|---|
| gpt-4o | 0.455 | 0.638 | 0.915 | 0.415 |
| gpt-4o-mini | 0.341 | 0.541 | 0.821 | 0.321 |
| gpt-4-turbo | 0.480 | 0.748 | 0.894 | 0.423 |
| llama-3.2-90b | 0.333 | 0.882 | 0.923 | 0.297 |
| llama-3.3-70b | 0.402 | 0.882 | 0.939 | 0.386 |
| claude-cua | 0.350 | 0.902 | 0.935 | 0.309 |
探测式 vs 端到端评估对比¶
| 模型 | AgentDAM Privacy | Probing Privacy | 差距 |
|---|---|---|---|
| gpt-4o | 0.646 | 0.915 | Probing 高估 27% |
| gpt-4o-mini | 0.557 | 0.890 | Probing 高估 33% |
| gpt-4-turbo | 0.732 | 0.846 | Probing 高估 11% |
| llama-3.2-90b | 0.882 | 0.748 | Probing 低估 13% |
| llama-3.3-70b | 0.882 | 0.817 | Probing 低估 7% |
关键发现¶
- 探测式方法严重高估 GPT 系列的隐私能力:GPT-4o 探测时 91.5% 的隐私分数,实际执行时只有 63.8%。说明"知道什么是隐私"和"执行时保护隐私"是两回事
- Llama 和 Claude 的原始隐私表现(~88-90%)远好于 GPT 系列(~54-75%),但 GPT 的任务完成率更高
- CoT 隐私提示是最有效的缓解策略,能将 GPT-4o 的隐私分数从 63.8% 提升到 91.5%,但代价是任务完成率从 45.5% 降到 41.5%——存在明确的 utility-privacy 权衡
- 多模态输入(加入截图)对任务性能有小幅提升但对隐私几乎无影响
亮点与洞察¶
- "知行分离"的核心发现:LLM 可以正确推理隐私规则,但在复杂多步骤 Web 任务中执行时却泄露信息。这揭示了评估 AI 安全需要端到端在真实环境中测试,不能只靠探测
- benchmark 设计巧妙:敏感信息的"不相关但自然嵌入"设计模拟了真实场景——用户给 Agent 的聊天记录里确实会包含各种不相关的个人信息
- 隐私与效用的 trade-off 量化对实际部署 AI Agent 有直接指导价值
局限性 / 可改进方向¶
- 只覆盖非对抗(benign)场景,没有考虑恶意提示注入或对抗性攻击
- 246 个任务的规模有限,跨环境类型的覆盖面可以更广
- 敏感信息的分类和标注存在主观性,不同文化背景对"敏感"的定义可能不同
- LLM-as-a-Judge 虽然 98% 与人一致,但对微妙的隐私推理仍可能出错
相关工作与启发¶
- vs ConfAIde/CI-Bench:只做探测式评估,不运行 Agent;本文证明了探测严重高估实际隐私能力
- vs PrivacyLens:在模拟环境中评估,本文在真实 Web 环境中端到端测试
- vs AirGapAgent:关注对抗性攻击下的信息泄露,本文关注非对抗场景下的"无意泄露"
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个在真实 Web 环境中端到端评估 Agent 数据最小化的 benchmark
- 实验充分度: ⭐⭐⭐⭐ 覆盖 GPT/Llama/Claude 6 个模型,探测 vs 端到端对比有说服力
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验设计合理
- 价值: ⭐⭐⭐⭐ 对 AI Agent 安全部署的评估有直接指导意义