JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks¶
日期: 2026-03-01
arXiv: 2603.01291
代码: 无
领域: LLM对齐 / AI安全
关键词: jailbreak, fake news generation, multilingual benchmark, LLM safety, regional bias
一句话总结¶
构建首个面向越狱攻击诱导假新闻生成的多语言多区域基准 JailNewsBench,覆盖 34 个地区 22 种语言 5 种越狱方法 ~300k 实例,揭示英语/美国话题防御能力显著弱于其他区域的安全失衡现象。
研究背景与动机¶
- 领域现状:LLM 安全对齐主要关注毒性和社会偏见,对假新闻生成场景的防御和评估覆盖严重不足。
- 核心问题:现有安全数据集对假新闻类别的覆盖有限,且完全缺乏跨语言跨地区的系统评估——不同文化背景下的安全漏洞可能完全不同。
- 本文方案:建立大规模基准(~300k 实例),通过 LLM-as-a-Judge 在 8 个子指标上评估 9 个 LLM 在多语言多地区环境下抵抗越狱生成假新闻的能力。
方法详解¶
基准设计¶
- 覆盖范围:34 个地区、22 种语言、地区特定话题
- 越狱方法:5 种攻击类型(prompt injection、角色扮演等主流技术)
- 评估维度:8 个子指标,通过 LLM-as-a-Judge 自动评估
- 规模:约 300k 评估实例,覆盖 9 个 LLM
评估发现¶
- 最大攻击成功率 86.3%,最大有害性分数 3.5/5
- 对于英语和美国相关话题,典型多语言 LLM 的防御性能显著劣于其他地区
- 假新闻在现有安全数据集中的防御水平远不如毒性和社会偏见类别
实验关键数据¶
| 指标 | 数值 |
|---|---|
| 覆盖地区 | 34 |
| 覆盖语言 | 22 |
| 评估实例数 | ~300k |
| 测试 LLM 数 | 9 |
| 最大 ASR | 86.3% |
| 最大有害性分数 | 3.5 / 5.0 |
关键发现¶
- 区域安全失衡:英语/美国话题下的防御显著弱于其他区域——可能因为英语训练数据中越狱攻击模式更丰富、更多样化
- 假新闻防御盲区:86.3% ASR 说明现有安全对齐在假新闻方向上几乎无效
- 这一发现对 LLM 部署在多语言新闻环境中的风险评估有直接影响
亮点与洞察¶
- 首次系统量化跨语言安全失衡——直觉上英语应更安全(训练数据最多),但结果是防御更弱(攻击模式也最多),这是重要的反直觉发现。
- 300k 规模 × 34 地区 × 22 语言的覆盖面远超现有安全基准。
- 假新闻作为安全类别的被忽视程度令人警醒。
局限性¶
- 依赖 LLM-as-a-Judge 评估,评估器本身可能存在语言/文化偏见——对低资源语言的评估能力可能较弱
- 22 种语言仍排除大量低资源语言(目前全球约 7000 种语言)
- 仅评估生成风险,未提出具体防御方案或安全加固建议
- 难度分级依赖单专家判断
- 5 种越狱攻击可能无法覆盖最新攻击策略(如结构化多轮对话诱导)
相关工作与启发¶
- vs TruthfulQA:TruthfulQA 评估模型自身的真实性倾向,JailNewsBench 评估被恶意越狱后生成假新闻的抵抗力——角度互补
- vs 单语言安全基准:SafetyBench 等主要面向英语/中文,JailNewsBench 的 22 语言 × 34 地区覆盖填补了安全评估的多语言空白
- 对安全对齐的启示:防御不均衡暗示安全微调数据需要按语言和地区均匀分配,不能只靠英语安全数据做对齐
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个多语言假新闻越狱基准
- 实验充分度: ⭐⭐⭐⭐ 300k 实例 × 9 模型 × 34 地区
- 价值: ⭐⭐⭐⭐ 揭示重要安全失衡,直接影响 LLM 部署策略