ExpGuard: LLM Content Moderation in Specialized Domains¶

会议: ICLR2026
arXiv: 2603.02588
代码: brightjade/ExpGuard
领域: medical_imaging
关键词: LLM safety, guardrail model, content moderation, domain-specific, financial/medical/legal

一句话总结¶

提出面向金融、医疗、法律等专业领域的安全护栏模型 ExpGuard 及配套数据集 ExpGuardMix（58,928 样本），在领域特定测试集上 prompt 分类 F1 超 WildGuard 8.9%、response 分类超 15.3%，同时在通用安全基准上保持 SOTA 水平。

背景与动机¶

随着 LLM 在金融、医疗、法律等高风险专业领域的部署不断推进，现有安全护栏模型面临严峻挑战：

通用护栏的盲区：现有 guardrail（如 Llama-Guard、WildGuard）主要面向通用人机交互场景，缺乏对专业术语和领域概念的理解。例如金融术语"haircut"（资产估值折扣）被用于构造的恶意 prompt 可以轻松绕过通用护栏的检测。
API 工具近乎失效：Detoxify、Perspective API、OpenAI Moderation 等在专业领域测试集上 F1 仅 0.3%-14.1%，几乎完全无法识别领域特定的有害内容。
内部对齐的局限：RLHF 等内部对齐技术资源消耗大，且难以覆盖领域特定风险，外部护栏模型作为补充层有其必要性。

核心问题¶

如何构建一个既能处理通用安全检测、又能有效识别金融/医疗/法律等专业领域中利用技术术语伪装的有害内容的安全护栏模型？

方法详解¶

1. ExpGuardMix 数据集构建（58,928 样本）¶

整个数据集分为 ExpGuardTrain（56,653 样本用于训练）和 ExpGuardTest（2,275 样本用于评测）。

阶段一：领域术语挖掘

从 Wikipedia 递归爬取金融、医疗、法律类目页面提取术语
使用 Wikidata API 过滤非技术实体（人名、组织、国家等）
GPT-4o 排除非敏感/无关术语
人工验证：3 名标注者多数投票，最终保留 2,646 个术语（金融 989、医疗 1,012、法律 645）

阶段二：Prompt 和 Response 生成

有害 prompt：对每个术语，用 GPT-4o 生成针对该术语风险场景的有害 prompt，通过添加"I have an idea for a prompt:"前缀绕过安全机制。生成长短两种变体，随机采样 100+ 预设指令模板，加 few-shot 示例
良性 prompt：将 Wikipedia 文档转成指令-回复对，仅保留指令部分。虽涉及敏感话题但本质安全，用于缓解模型的过度安全行为
野外数据：从 LMSYS-Chat-1M、WildChat 子采样，加入 DAN jailbreak prompt 及 HH-RLHF、Aegis 2.0 人写数据
回复生成：用 Mistral-7B-Instruct-v0.1 生成 compliant response（该旧模型更易服从有害请求），用 Gemma-3-27B-IT 生成 refusal response

阶段三：分类标注与过滤

定义 13 类有害类别 + 1 类"无害"伪类别，涵盖暴力、色情、歧视、隐私侵犯、金融欺诈、非法药物等
使用 Claude 3.7 Sonnet + Gemini 2.0 Flash + Qwen2.5-Max 三模型集成标注，要求生成 CoT 推理后给出类别
严格共识过滤：要求至少 2/3 模型给出完全相同的类别索引（非仅"安全/不安全"），4.8% 模糊样本被丢弃
Sentence-BERT 余弦相似度 > 0.9 的近重复样本去重

2. ExpGuardTest（2,275 样本）¶

分布：金融 964、医疗 771、法律 540
初始由 LLM 集成标注，再由领域专家验证
金融部分由银行业从业者审核，Cohen's Kappa 达 0.89（prompt）/ 0.98（response），表明"几乎完美一致"

3. ExpGuard 模型训练¶

基于 7B 参数 LLM 微调，用 ExpGuardTrain 进行多任务训练
输入仅 prompt 时预测 prompt 有害性；输入 prompt-response 对时同时预测两者有害性
输出二分类标签（safe/unsafe）

实验关键数据¶

ExpGuardTest 上的主要结果（F1%）¶

模型	Prompt 总 F1	Response 总 F1
Detoxify / Perspective / OpenAI Mod	0.3-0.5	0.6
Azure	14.1	2.6
Llama-Guard3 (8B)	71.1	84.2
Aegis-Guard-D (7B)	82.9	87.2
WildGuard (7B)	84.4	77.4
ExpGuard (7B)	93.3	92.7

Prompt 分类超 WildGuard +8.9%，Response 分类超 +15.3%
金融/医疗/法律三个子领域均领先

公开安全基准上的结果（8 个 benchmark 平均 F1%）¶

模型	Prompt 平均	Response 平均
WildGuard	84.2	78.8
ExpGuard	85.7	78.5

在通用基准上与 SOTA 持平甚至略优，未因领域特化而牺牲通用性

消融实验¶

移除领域特定数据：ExpGuardTest prompt F1 从 93.3% 降至 85.3%（-8.0%）
移除野外数据：公开 benchmark prompt F1 从 85.7% 降至 84.1%
移除人写数据：公开 benchmark response F1 从 78.5% 降至 73.9%（影响最大）

Jailbreak 鲁棒性¶

在标准 jailbreak 攻击（CipherChat、AutoDAN-Turbo、FlipAttack、GASP）下保持竞争力
ExpGuard+ 变体（额外加入 270 条领域特定对抗样本）在领域 jailbreak 上显著超越所有基线

亮点¶

首个面向专业领域的安全护栏数据集和模型：填补了金融/医疗/法律领域 LLM 内容审核的空白
数据构建流程可复用：基于 Wikipedia 术语挖掘 + LLM 生成 + 三模型集成标注 + 专家验证的 pipeline 可扩展到其他领域
严格的质量控制：三模型精确类别共识（非仅二分类共识）+ 领域专家金融子集验证（Kappa 0.89/0.98）
领域特化 + 通用不退化：ExpGuardTest 上大幅领先的同时，8 个公开 benchmark 上保持/超越 SOTA
揭示 API 工具的严重不足：量化展示主流 API 在专业场景几乎完全失效

局限性 / 可改进方向¶

领域覆盖有限：仅覆盖金融/医疗/法律三个领域，其他专业领域（如网络安全、化工等）有待扩展
仅支持英语：多语言领域审核是重要的未来方向
合成数据局限：尽管做了多种增强，合成数据可能无法完全反映真实用户交互的多样性
动态更新需求：有害内容和对抗手段快速演进，数据集需持续更新
领域专家验证不完全：仅金融子集经过专家审核，医疗和法律子集依赖 LLM 集成标注的可靠性推断

与相关工作的对比¶

维度	WildGuard	Llama-Guard 系列	ExpGuard
领域覆盖	通用	通用	通用 + 金融/医疗/法律
训练数据	WildGuardMix (92K)	内部安全数据	ExpGuardMix (58.9K)
领域特定 F1	84.4 / 77.4	71.1 / 84.2	93.3 / 92.7
通用 benchmark	84.2 / 78.8	78.9 / 66.8	85.7 / 78.5
数据构建	LLM 生成 + 野外	未公开	术语挖掘 + RAG 生成 + 专家验证

与 An et al. (2024)、Cui et al. (2025) 等"生成-过滤"流程的关键区别：前者关注减少 false positive（过度拒绝），本文关注减少 false negative（遗漏有害内容），并引入领域专家验证。

启发与关联¶

领域安全护栏的方法论范式：术语挖掘→RAG 生成→多模型集成标注→专家验证的 pipeline 具有很好的可迁移性，可用于构建网络安全、生物化学等领域的安全数据集
模型审核 vs. API 审核：实验有力证明了开源 LLM 护栏模型相比商业 API 在专业场景的必要性
与 RLHF 的互补关系：ExpGuard 作为外部审核层，与内部对齐形成双保险架构，值得在工业部署中推广

评分¶

新颖性: 8/10 — 首次系统性地解决专业领域 LLM 安全护栏问题，数据构建思路有创新
实验充分度: 9/10 — 13 个基线、9 个 benchmark、消融实验和 jailbreak 分析都很完整
写作质量: 8/10 — 结构清晰，pipeline 描述详尽，图表丰富
价值: 8/10 — 填补了重要空白，但领域和语言覆盖仍有限