AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents¶

会议: NeurIPS 2025
arXiv: 2503.09780
代码: https://github.com/facebookresearch/ai-agent-privacy
领域: AI安全 / LLM Agent
关键词: AI agent privacy, data minimization, web navigation, privacy benchmark, inference-time leakage

一句话总结¶

提出 AgentDAM，首个在真实 Web 环境中端到端评估 AI Agent 数据最小化能力的基准，包含 246 个跨 Reddit/GitLab/Shopping 的任务，发现 GPT-4o 等主流模型在无缓解措施时隐私泄露率高达 36-46%，而 CoT 隐私提示可将泄露率降至 6-8%。

研究背景与动机¶

领域现状：自主 AI Agent（如 Web 导航代理）正快速发展，能代替用户完成支付账单、管理日程等复杂任务。这些任务不可避免地需要访问用户的敏感信息（信用卡号、邮件内容等）。
现有痛点：现有隐私评估方法主要是探测式（Probing）——直接问 LLM "在这个场景下分享这条信息合适吗？"，但这只测试了 LLM 的隐私推理能力，不能反映 Agent 在实际执行多步 Web 任务时的真实行为。
核心矛盾：Agent 需要能访问用户的敏感数据来完成任务，但也需要遵循"数据最小化"原则——只使用完成任务所必需的信息，不泄露无关敏感数据。现有评估要么不是端到端的（只做探测），要么在模拟环境中（不够真实）。
本文要解决什么？ 如何在真实 Web 环境中端到端地评估 AI Agent 是否遵循数据最小化原则？
切入角度：基于 WebArena/VisualWebArena 搭建完全可控的真实 Web 环境（Reddit/GitLab/Shopping），构造包含相关和无关敏感信息的任务，用 LLM-as-a-judge 自动检测 Agent 轨迹中的隐私泄露。
核心idea一句话：在真实 Web 交互中评估 Agent 对用户数据的实际使用行为，而非仅测试其关于隐私的推理判断。

方法详解¶

整体框架¶

AgentDAM 由三部分组成：(1) 任务设计：246 个任务，每个包含 user_instruction（要完成的任务）、user_data（包含相关和无关敏感信息的合成数据）、以及标注的 sensitive_data（不应被使用的敏感字段）；(2) 端到端评估：Agent 在真实 Web 服务器上执行任务，每一步行动都被记录和分析；(3) 双轴评分：Utility（任务完成率）和 Privacy（隐私不泄露率）。

关键设计¶

敏感数据分类体系:
做什么：定义 6 大类敏感信息：个人/联系信息、宗教/文化/政治认同、雇主/就业数据、财务信息、教育历史、医疗数据
核心思路：由人工标注者创建 Data Seed（包含 plot + sensitive_data），然后用 LLM 生成完整的 user_data（如聊天记录），确保敏感信息自然嵌入但与任务无关
设计动机：敏感信息必须是上下文中自然出现但与当前任务不相关的，模拟真实场景中 Agent 可能"顺手"使用多余信息的情况
LLM-as-a-Judge 隐私评估器:
做什么：自动检测 Agent 每一步行动中是否包含 sensitive_data 的泄露
核心思路：用 GPT-4o 做 CoT 推理判断，分析 Agent 的输出文本是否包含标注的敏感信息（不只是关键词匹配，还考虑同义替换和匿名化）
设计动机：隐私泄露不能只做字符串匹配——Agent 可能改写信息但仍泄露核心内容。人工评估与 LLM Judge 的一致率达 98%
缓解策略:
预过滤（用 LLM 先过滤 user_data）和后过滤（检查最终输出）效果不佳
CoT 隐私系统提示效果最好：在系统提示中告知 Agent 数据最小化原则 + 提供少样本推理示例

实验关键数据¶

主实验（隐私与效用评估）¶

模型	Utility ↑	Privacy(无缓解) ↑	Privacy(CoT提示) ↑	Utility(CoT提示)
gpt-4o	0.455	0.638	0.915	0.415
gpt-4o-mini	0.341	0.541	0.821	0.321
gpt-4-turbo	0.480	0.748	0.894	0.423
llama-3.2-90b	0.333	0.882	0.923	0.297
llama-3.3-70b	0.402	0.882	0.939	0.386
claude-cua	0.350	0.902	0.935	0.309

探测式 vs 端到端评估对比¶

模型	AgentDAM Privacy	Probing Privacy	差距
gpt-4o	0.646	0.915	Probing 高估 27%
gpt-4o-mini	0.557	0.890	Probing 高估 33%
gpt-4-turbo	0.732	0.846	Probing 高估 11%
llama-3.2-90b	0.882	0.748	Probing 低估 13%
llama-3.3-70b	0.882	0.817	Probing 低估 7%

关键发现¶

探测式方法严重高估 GPT 系列的隐私能力：GPT-4o 探测时 91.5% 的隐私分数，实际执行时只有 63.8%。说明"知道什么是隐私"和"执行时保护隐私"是两回事
Llama 和 Claude 的原始隐私表现（~88-90%）远好于 GPT 系列（~54-75%），但 GPT 的任务完成率更高
CoT 隐私提示是最有效的缓解策略，能将 GPT-4o 的隐私分数从 63.8% 提升到 91.5%，但代价是任务完成率从 45.5% 降到 41.5%——存在明确的 utility-privacy 权衡
多模态输入（加入截图）对任务性能有小幅提升但对隐私几乎无影响

亮点与洞察¶

"知行分离"的核心发现：LLM 可以正确推理隐私规则，但在复杂多步骤 Web 任务中执行时却泄露信息。这揭示了评估 AI 安全需要端到端在真实环境中测试，不能只靠探测
benchmark 设计巧妙：敏感信息的"不相关但自然嵌入"设计模拟了真实场景——用户给 Agent 的聊天记录里确实会包含各种不相关的个人信息
隐私与效用的 trade-off 量化对实际部署 AI Agent 有直接指导价值

局限性 / 可改进方向¶

只覆盖非对抗（benign）场景，没有考虑恶意提示注入或对抗性攻击
246 个任务的规模有限，跨环境类型的覆盖面可以更广
敏感信息的分类和标注存在主观性，不同文化背景对"敏感"的定义可能不同
LLM-as-a-Judge 虽然 98% 与人一致，但对微妙的隐私推理仍可能出错

评分¶

新颖性: ⭐⭐⭐⭐ 首个在真实 Web 环境中端到端评估 Agent 数据最小化的 benchmark
实验充分度: ⭐⭐⭐⭐ 覆盖 GPT/Llama/Claude 6 个模型，探测 vs 端到端对比有说服力
写作质量: ⭐⭐⭐⭐ 问题定义清晰，实验设计合理
价值: ⭐⭐⭐⭐ 对 AI Agent 安全部署的评估有直接指导意义