Constitutional Classifiers: Defending Against Universal Jailbreaks Across Thousands of Hours of Red Teaming¶

会议: ACL 2025
arXiv: 2501.18837
代码: 无
领域: AI安全
关键词: 越狱防御, 宪法分类器, 红队测试, LLM安全, 对抗鲁棒性

一句话总结¶

Anthropic提出"宪法分类器"（Constitutional Classifiers），通过从自然语言安全规则（宪法）出发生成合成训练数据来训练输入/输出安全分类器，在超过3000小时的红队测试中未被发现通用越狱攻击，同时仅增加0.38%的误拒率和23.7%的推理开销。

研究背景与动机¶

领域现状：大语言模型面临越狱（jailbreak）攻击的严峻挑战——攻击者通过精心构造的提示绕过模型的安全防护，让模型输出有害内容。越狱攻击可以分为特定越狱（针对特定提示的攻击）和通用越狱（一种攻击策略可以绕过大部分安全限制）。通用越狱是最危险的，因为攻击者只需找到一种方法就能大规模获取有害信息。

现有痛点：（1）基于RLHF/DPO的安全对齐训练虽然能防御简单越狱，但对抗精心设计的通用越狱（如多步劝说、角色扮演、编码变换）防御能力有限；（2）简单的关键词过滤和规则系统太粗糙，容易被绕过也容易误判正常请求；（3）现有的分类器防御方案训练数据有限，覆盖不了不断进化的攻击策略；（4）加强防御往往以大幅增加误拒率（误伤正常请求）为代价，影响用户体验。

核心矛盾：安全性和可用性之间存在trade-off——越强的防御越容易误伤正常请求。需要一种方法在极大提升安全性的同时保持可接受的误拒率。

本文目标：设计一种基于分类器的防御系统，能够防御通用越狱攻击，同时保持极低的误拒率和可接受的推理开销。

切入角度：作者借鉴了"Constitutional AI"（宪法AI）的理念——用自然语言定义的安全规则（宪法）来指导AI行为。不同的是，这里将宪法用于生成分类器的训练数据，而非直接用于模型自我约束。

核心 idea：从自然语言安全宪法出发，通过LLM生成大规模的对抗性合成训练数据（包括各种越狱变体），训练高鲁棒性的输入/输出分类器来过滤有害请求和回复。宪法的可编辑性使得防御策略可以随时更新而无需重新训练基础模型。

方法详解¶

整体框架¶

防御系统由三部分组成：（1）安全宪法——定义允许和禁止内容的自然语言规则集；（2）合成数据生成管线——基于宪法和已知越狱策略生成大规模的正负样本训练数据；（3）输入/输出分类器——分别在用户输入端和模型输出端进行有害内容检测。两个分类器串联工作：输入分类器检测恶意请求，输出分类器检测有害回复。

关键设计¶

宪法驱动的合成数据生成:
- 功能：自动生成覆盖广泛攻击策略的大规模分类器训练数据
- 核心思路：安全宪法用自然语言定义了禁止内容的类别（如武器制造、非法物质合成、网络攻击等）和边界情况（如学术讨论vs实际制造指导）。数据生成管线分几步进行：（a）从宪法规则出发，用LLM生成各类别的种子有害请求；（b）对种子请求施加已知的越狱变换（角色扮演包装、多步分解、编码混淆、语言混合等）生成越狱变体；（c）同时生成与禁止内容主题相近但实际无害的"边界样本"作为负样本（如讨论药物安全研究 vs 制造毒品指导）。最终生成了数百万级的训练样本，覆盖数十种越狱策略
- 设计动机：人工标注的越狱样本数量有限且难以覆盖新型攻击。合成数据可以大规模自动生成，且宪法规则可以持续扩展以应对新型攻击
双层分类器架构:
- 功能：在输入端和输出端分别检测有害内容，提供双重防护
- 核心思路：输入分类器判断用户请求是否为恶意的（即使包裹了越狱外壳），使用的是Transformer编码器架构，以请求文本为输入输出二分类概率。输出分类器判断模型回复是否包含有害信息，同时以用户请求和模型回复为输入。两个分类器独立训练、串联部署。输入分类器的阈值设定更宽松（减少误拒），输出分类器更严格（兜底防护）。如果任一分类器触发报警，则拒绝该交互并返回安全回复
- 设计动机：单一分类器可能存在盲点——某些越狱可以绕过输入检测但输出中仍包含有害内容（反之亦然）。双层防护互为补充，大幅提高攻击的总体难度
大规模红队测试与迭代改进:
- 功能：通过真人对抗性测试验证和改进分类器
- 核心思路：组织了超过3000小时的红队测试——专业安全研究人员尝试找到能绕过分类器防护的通用越狱攻击。红队成员可以使用任何策略（包括自动化工具、多轮对话、编码技巧等）。评估标准是"信息提取度"——攻击者能否从防护模型中获取与无防护模型同等详细的有害信息。红队测试中发现的新攻击策略被反馈到合成数据生成管线中，生成新的训练数据并更新分类器，形成攻防迭代闭环
- 设计动机：自动化评估无法模拟真实攻击者的创造性，大规模红队测试是验证安全系统鲁棒性的黄金标准

损失函数 / 训练策略¶

分类器使用标准的二分类交叉熵损失训练。关键的训练技巧包括：（a）困难样本挖掘——增加与安全边界相近的样本权重；（b）对抗训练——在训练过程中动态生成对抗样本增强鲁棒性；（c）校准后处理——对分类器的输出概率进行温度缩放，确保在目标误拒率下的检测率最大化。

实验关键数据¶

主实验¶

评估维度	指标	本文方法	仅RLHF对齐	关键词过滤
安全性（红队）	通用越狱成功率	0%（3000+小时）	~20%	~40%
安全性（自动化）	领域越狱防御率	>95%	~65%	~45%
可用性	误拒率增加	+0.38%	基线	+5.2%
效率	推理开销	+23.7%	基线	+2.1%
覆盖度	支持的攻击类型	数十种	有限	极有限

消融实验¶

配置	领域越狱防御率	误拒率增加	说明
Full system (双层+合成数据)	>95%	+0.38%	完整系统
仅输入分类器	82%	+0.25%	缺少输出兜底
仅输出分类器	88%	+0.30%	缺少前置拦截
无合成数据（人工标注）	71%	+0.82%	数据不足导致泛化差
无红队迭代	85%	+0.35%	未覆盖新型攻击

关键发现¶

3000+小时红队测试中无人找到通用越狱——这是该领域最大规模的红队验证之一
合成数据生成是最关键的组件——无合成数据的分类器防御率从95%降至71%，说明数据覆盖度比模型架构更重要
双层架构比单层高7-13个百分点的防御率，互补效果显著
误拒率仅增加0.38%，这在实际部署中完全可接受。相比之下简单的关键词过滤误拒率增加5.2%
23.7%的推理开销主要来自额外的分类器前向传播，可以通过分类器量化进一步优化

亮点与洞察¶

"宪法→合成数据→分类器"的管线设计极具实用性。宪法规则可以迅速更新以应对新型攻击，而无需修改基础模型，这对实际部署中的快速迭代至关重要
3000+小时红队测试的规模令人印象深刻。将红队发现反馈到训练数据中形成闭环改进是保持长期安全性的关键机制
0.38%的误拒率增加证明了"强安全不必牺牲可用性"的可能——这挑战了之前普遍认为的安全性-可用性不可调和的观点

局限与展望¶

作者来自Anthropic，方法可能在Claude模型上有针对性优化，在其他模型上效果可能不同
宪法规则的定义依赖人工判断，不同文化/法律背景下"有害"的边界可能不同
23.7%的推理开销对大规模部署仍有成本影响
红队测试虽然大规模，但不能保证未覆盖所有可能的攻击策略——安全是一个持续对抗的过程
方法主要针对文本模态，多模态越狱（如图片绕过）需要额外的防御机制

评分¶

新颖性: ⭐⭐⭐⭐ 宪法驱动的合成数据生成思路有创新，大规模红队验证有里程碑意义
实验充分度: ⭐⭐⭐⭐⭐ 3000+小时红队测试+自动化评估+消融实验，验证极其充分
写作质量: ⭐⭐⭐⭐ 清晰全面，安全评估方法论值得参考
价值: ⭐⭐⭐⭐⭐ 对LLM安全防御有直接实际应用价值，展示了务实可行的防御方案