Poly-Guard: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset¶

会议: NeurIPS 2025 (Dataset & Benchmark)
arXiv: 2506.19054
代码: github.com/AI-secure/PolyGuard
数据: huggingface.co/datasets/AI-Secure/PolyGuard
作者: Mintong Kang, Zhaorun Chen, Chejian Xu, Jiawei Zhang, Chengquan Guo, Minzhou Pan, Ivan Revilla, Yu Sun, Bo Li
机构: UIUC, UChicago, CSU, Virtue AI
领域: AI Safety / 内容安全 / 护栏评测
关键词: guardrail benchmark, policy-grounded, multi-domain safety, adversarial attack, over-refusal

一句话总结¶

提出首个大规模、多领域、策略驱动的安全护栏基准 Poly-Guard，从 150+ 真实行业安全策略中提取 400+ 风险类别和 1000+ 安全规则，生成 100K+ 实例覆盖 8 大安全关键领域，并系统评测 19 个护栏模型，揭示了领域特化、模型演进遗忘、模型缩放停滞、对抗脆弱性等 8 项关键发现。

研究背景与动机¶

领域现状: LLM 在金融、法律、医疗等高风险领域的广泛部署催生了大量安全护栏模型（LlamaGuard 系列、ShieldGemma、WildGuard、Granite Guardian 等）和评测基准（ToxicChat、HarmBench、SALAD-Bench 等），但现有基准在系统性和现实对齐度上存在严重不足。
现有痛点:
1. 临时性风险分类: 现有基准基于各组织自行设计的 ad hoc 风险分类体系，缺乏与标准化安全策略（政府法规、平台行为准则、行业伦理标准）的原则性对齐
2. 忽视领域特异性: 同一风险类别（如隐私泄露）在社交媒体 vs 人力资源 vs 金融领域含义截然不同，现有基准以通用领域为主，无法揭示领域间的差异
3. 良性数据匮乏: 缺乏高质量的"难安全"（hard safe）样本——表面涉及敏感话题但实际合规的内容，导致无法检测模型的过拒绝（over-refusal）问题
4. 攻击场景不充分: 现有攻击增强数据集（如 JailbreakBench）主要测试 LLM 本身的越狱漏洞，而非专门针对护栏模型的对抗鲁棒性
核心矛盾: 护栏模型需要在真实的、跨领域的安全策略框架下评测才能反映实际部署效果，但目前没有这样的统一基准——既要覆盖足够多的领域和策略，又要具备足够的粒度（规则级别而非类别级别）来精确定位模型失败点。
本文目标: 构建第一个与真实行业安全策略对齐的大规模多领域护栏评测基准，并在此基础上对 19 个先进护栏模型进行系统性基准评测，揭示其优势和盲点。
切入角度: 从真实安全策略文档出发进行自动化提取和结构化（策略爬取 → 风险类别/安全规则两级层次提取 → 规则条件化数据生成 → 去毒化配对 → 攻格格式增强 → 对抗攻击增强），形成端到端的数据构建管线。
核心 idea: 以 150+ 真实安全策略为基石，通过两级风险层次提取 + 规则条件化安全/不安全配对生成 + 对抗增强，构建首个策略驱动的跨领域护栏基准。

方法详解¶

整体框架¶

Poly-Guard 的构建遵循两阶段管线（图 2）： 1. 策略 → 结构化风险提取: 自动爬取 8 个领域的 150+ 官方安全策略文档 → 用 GPT-4o 提取两级层次：高层风险类别（400+）+ 细粒度安全规则（1000+） 2. 结构化风险 → 数据集生成: 用非安全对齐/未审查 LLM 生成规则条件化的不安全样本 → 去毒化 prompting 生成配对安全样本 → 交互格式多样化（陈述句/指令/多轮对话）→ 对抗攻击增强

最终数据集覆盖 8 个领域、100K+ 实例、400+ 风险类别、1000+ 安全规则。

关键设计¶

策略驱动的两级风险层次提取

功能：从原始安全策略文档中自动提取结构化的风险分类体系
核心思路：设计两阶段 prompting 框架——第一阶段让 LLM 扮演策略分析师，从平台原始安全文档中提取原子级、可操作的行为限制规则（如"不得发布、传播儿童性虐待材料"）；第二阶段对提取的规则进行去重、语义聚类和抽象，生成"风险类别 → 安全规则"的两级层次。在此之前，先用安全策略爬取 Agent 解决策略文档格式多样（PDF/HTML/Markdown）、分布分散、结构不一致等问题
设计动机：现有基准仅在类别级别操作（如"仇恨言论"），粒度太粗，无法精确定位模型在哪条具体规则上失败。两级层次实现了规则级别的精细评测，便于针对性改进
去毒化配对生成（Detoxification Prompting）

功能：为每条不安全样本生成高质量的配对安全样本，用于检测护栏模型的过拒绝
核心思路：采用非对称 prompting——不安全生成 prompt 要求产生明确违规内容（涵盖显性到隐性违规的谱系），去毒化 prompt 则以最小编辑原则反转意图，保留敏感上下文和语义但使内容合规。明确禁止生成免责声明或过度净化的版本，确保"难安全"样本在语言和语义上仍足够挑战性
设计动机：现有基准缺乏挑战性的安全样本（XSTest/OKTest 虽尝试构建但依赖人工标注、规模仅数百条），导致无法检测过拒绝。配对设计保证安全/不安全样本在话题上平衡，避免分类器学到话题偏差
多策略对抗攻击增强

功能：评估护栏模型在对抗场景下的鲁棒性
核心思路：先设计三种利用常见护栏漏洞的攻击策略——① 风险类别转移（Risk Category Shifting，伪造类别变更误导模型）；② 推理干扰（Reasoning Distraction，插入无关推理任务分散注意力）；③ 指令劫持（Instruction Hijacking，利用模型的指令跟随倾向直接操纵输出）。这些策略作为种子，再用 PAIR 和 AutoDAN 对抗 prompt 优化算法迭代优化对抗后缀
设计动机：现有攻击增强数据集（如 JailbreakBench）面向 LLM 越狱而非护栏模型测试。本文专门针对护栏模型的判别边界设计攻击，更贴近真实部署场景

训练策略¶

Poly-Guard 本身是评测基准而非训练方法。数据生成使用非安全对齐 LLM 进行规则条件化生成，辅以 GPT-4o 进行风险层次提取。评测协议采用 F1、Recall、FPR 三个指标（不使用连续分数指标如 AUPRC，因为商业 API 如 Azure Content Safety、Bedrock Guardrail 不暴露置信度分值）。

实验关键数据¶

主实验¶

19 个护栏模型在 8 个领域的 F1/Recall 评测（表 1，F1 值 ×100）：

模型	Social Media (Msg/Comm/Stream)	General Reg (EU/GDPR)	HR (Svc/Cust)	Finance	Law	Education	Code	Cyber
LlamaGuard 1	33.1/38.4/32.7	13.0/16.1	25.6/17.3	23.7	11.8	15.2	28.3	61.9
LlamaGuard 2	49.7/60.9/55.6	47.8/64.4	52.5/52.1	64.6	62.2	44.7	51.0	88.0
LlamaGuard 3 (1B)	46.7/47.2/46.5	50.4/50.9	48.2/47.2	46.9	48.1	46.0	50.0	51.8
LlamaGuard 3 (8B)	61.2/63.3/63.5	37.0/32.7	27.4/26.8	49.6	44.2	28.6	13.8	81.6
MDJudge 2	73.7/75.3/75.9	64.0/81.7	80.4/75.6	76.9	65.6	77.9	56.5	89.1
WildGuard	76.0/74.3/76.0	56.6/66.4	77.0/71.7	86.5	76.4	69.4	55.0	80.2
Granite Guardian (3B)	71.1/70.5/71.9	67.9/78.2	80.1/78.7	90.4	80.2	80.0	63.8	85.0
Granite Guardian (5B)	69.5/70.3/67.4	63.3/80.3	84.6/81.6	85.0	66.8	75.8	64.0	87.7
ShieldGemma (2B)	4.8/5.5/4.5	0.0/0.0	8.8/4.4	0.0	0.0	2.2	16.5	26.8
Azure Content Safety	20.2/16.6/20.7	2.5/0.5	4.4/0.8	0.0	0.6	3.3	0.3	3.3

消融实验¶

对抗攻击成功率（ASR）——5 个最强护栏模型在 8 域的攻击成功率（表 2）：

模型	Social Media	General Reg	HR	Finance	Law	Education	Code	Cyber
Aegis Defensive	0.759/0.717/0.767	0.559/0.884	0.689/0.420	0.555	0.892	0.435	0.768	0.677
Granite Guardian (5B)	0.989/0.992/0.994	0.674/0.966	0.993/0.842	0.863	0.997	0.990	0.912	0.928
MDJudge 2	0.754/0.792/0.729	0.641/0.919	0.964/0.588	0.529	0.871	0.970	0.776	0.776
WildGuard	0.183/0.103/0.235	0.315/0.356	0.347/0.036	0.038	0.268	0.213	0.080	0.198
LLM Guard	0.470/0.452/0.608	0.781/0.991	0.864/0.332	0.388	0.854	0.990	0.368	0.645

模型缩放对比（F1 均值）：

对比	小模型 F1	大模型 F1	结论
LlamaGuard 3 (1B) vs (8B)	0.485	0.423	小模型更优
Granite Guardian (3B) vs (5B)	0.774	0.749	小模型更优

LlamaGuard 系列演进（Instagram 域 23 类风险平均 F1）：

版本	平均 F1	Cybersecurity	Misinformation	Hate Speech
LlamaGuard 1	0.294	0.472	0.045	—
LlamaGuard 4	0.605	0.797	0.692	0.734 (↓ vs v3 的 0.777)

关键发现¶

领域特化 (Finding 1): 护栏模型呈现明显的领域特化——Granite Guardian 在正式文体领域（HR/Finance/Education）表现突出，LLM Guard 在社交媒体领域领先，但子领域内性能趋势一致
演进遗忘 (Finding 2): LlamaGuard 系列从 v1 到 v4 覆盖的风险类别更广（平均 F1 从 0.294→0.605），但在常见类别上性能不保证提升（Hate Speech 在 v4 反而下降）
缩放停滞 (Finding 3): 小模型不一定弱于大模型——LlamaGuard 3 (1B) 平均 F1 高于 (8B)，Granite Guardian (3B) 高于 (5B)
上下文增益 (Finding 4): 对话格式比单条指令/陈述更易被正确审核（14 个有效模型中 12-13 个在对话上 F1 更高，平均提升 >5%）
对抗脆弱 (Finding 5): 所有模型对优化后的对抗攻击高度脆弱——Granite Guardian (5B) ASR 均值 92.8%，即使最优的 WildGuard 也有 19.8%
严重度偏斜鲁棒性 (Finding 6): 高严重度风险类别（如 EU AI Act 禁止性 AI 实践）的对抗鲁棒性显著优于低严重度类别
类别偏斜审核 (Finding 7): 风险类别间 F1 标准差普遍 >10%（如 Instagram 域 Hate Speech 平均 F1=0.715 vs Identity Misrepresentation 仅 0.273）
保守偏差 (Finding 8): 模型系统性地高精度低召回（Social Media 域平均精度 0.701 vs 召回 0.479），倾向于漏检而非误报

亮点与洞察¶

策略驱动的数据构建范式: 论文开创了从真实安全策略文档到结构化评测数据的端到端管线（策略爬取 Agent → 两阶段 prompting 提取 → 规则条件化生成）。这不仅产出数据集，更提供了一个可推广到新领域/新策略的通用框架。
"模型演进中的风险遗忘"现象: LlamaGuard 系列在扩展覆盖范围时，常见风险类别性能反而下降——这是一个类似于连续学习中灾难性遗忘的现象，对安全模型的迭代开发有重要警示。
规模不等于能力: LlamaGuard 3 (1B) 优于 (8B) 的发现直接挑战了"更大的模型一定更安全"的假设，表明数据质量和训练策略对护栏模型可能比模型规模更重要。
去毒化配对的方法论价值: 通过最小编辑反转意图生成"难安全"样本的方法，比 XSTest 的人工构建更可扩展，且能系统性地检测过拒绝——这是现实部署中影响用户体验的关键问题。
WildGuard 的防御优势: 在所有模型中，WildGuard 以 19.8% 的平均 ASR 远领先其他模型（次优 Aegis Defensive 为 67.7%），值得深入分析其训练策略中的鲁棒性来源。

局限与展望¶

文化/地域偏差: 安全策略主要来自西方机构和全球平台，缺少非西方地区的法规和文化规范（如中国、中东地区的内容安全标准差异显著）
生成模型偏差: 使用 LLM 生成数据可能引入模型特有的语言模式偏差，尽管使用了未审查模型，生成样本的自然度和多样性仍受限于生成模型能力
仅限文本模态: 未涉及多模态安全（图像/视频/音频中的安全问题），而社交媒体和内容创作领域的风险往往是多模态的
静态策略: 安全策略具有时效性（如 EU AI Act 的持续修订），数据集需要定期更新以反映策略变化
评测指标局限: 部分商业 API 不暴露置信度分值，限制了更精细的评测（如 AUPRC）；离散判决的 F1 评测可能遮蔽模型在决策边界附近的差异

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个将真实安全策略与大规模数据生成结合的多领域护栏基准，策略爬取 Agent + 两级风险提取的管线设计方法论创新性强
实验充分度: ⭐⭐⭐⭐⭐ 19 个模型 × 8 个领域的全面评测，8 项系统性发现各自有数据支撑，对抗评测和模型演进分析提供了丰富洞察
技术深度: ⭐⭐⭐⭐ 数据构建管线设计完整（策略爬取→规则提取→条件化生成→去毒化→对抗增强），但本质是工程管线而非新算法
实用价值: ⭐⭐⭐⭐⭐ 直接服务于安全护栏的开发与选型——领域特化、缩放停滞、演进遗忘等发现对工业界护栏部署有直接指导意义

基准/数据集	规模	领域覆盖	策略驱动	良性数据	攻击增强
HarmBench / AdvBench	中	通用	✗	✗	✗
ToxicChat	小	通用聊天	✗	有限	✗
XSTest / OKTest	≤数百	通用	✗	✓ (人工)	✗
AIRBench	中	法规	部分	✗	✗
CyberSecEval	中	网络安全	部分	✗	✗
GuardBench	中	聚合	✗	继承	✗
SALAD-Bench	大	通用	✗	✗	✓
Poly-Guard	100K+	8 领域	✓ (150+ 策略)	✓ (去毒化)	✓ (PAIR+AutoDAN)