JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks¶

日期: 2026-03-01
arXiv: 2603.01291
代码: 无
领域: LLM对齐 / AI安全
关键词: jailbreak, fake news generation, multilingual benchmark, LLM safety, regional bias

一句话总结¶

构建首个面向越狱攻击诱导假新闻生成的多语言多区域基准 JailNewsBench，覆盖 34 个地区 22 种语言 5 种越狱方法 ~300k 实例，揭示英语/美国话题防御能力显著弱于其他区域的安全失衡现象。

研究背景与动机¶

领域现状：LLM 安全对齐主要关注毒性和社会偏见，对假新闻生成场景的防御和评估覆盖严重不足。
核心问题：现有安全数据集对假新闻类别的覆盖有限，且完全缺乏跨语言跨地区的系统评估——不同文化背景下的安全漏洞可能完全不同。
本文方案：建立大规模基准（~300k 实例），通过 LLM-as-a-Judge 在 8 个子指标上评估 9 个 LLM 在多语言多地区环境下抵抗越狱生成假新闻的能力。

方法详解¶

基准设计¶

覆盖范围：34 个地区、22 种语言、地区特定话题
越狱方法：5 种攻击类型（prompt injection、角色扮演等主流技术）
评估维度：8 个子指标，通过 LLM-as-a-Judge 自动评估
规模：约 300k 评估实例，覆盖 9 个 LLM

评估发现¶

最大攻击成功率 86.3%，最大有害性分数 3.5/5
对于英语和美国相关话题，典型多语言 LLM 的防御性能显著劣于其他地区
假新闻在现有安全数据集中的防御水平远不如毒性和社会偏见类别

实验关键数据¶

指标	数值
覆盖地区	34
覆盖语言	22
评估实例数	~300k
测试 LLM 数	9
最大 ASR	86.3%
最大有害性分数	3.5 / 5.0

关键发现¶

区域安全失衡：英语/美国话题下的防御显著弱于其他区域——可能因为英语训练数据中越狱攻击模式更丰富、更多样化
假新闻防御盲区：86.3% ASR 说明现有安全对齐在假新闻方向上几乎无效
这一发现对 LLM 部署在多语言新闻环境中的风险评估有直接影响

亮点与洞察¶

首次系统量化跨语言安全失衡——直觉上英语应更安全（训练数据最多），但结果是防御更弱（攻击模式也最多），这是重要的反直觉发现。
300k 规模 × 34 地区 × 22 语言的覆盖面远超现有安全基准。
假新闻作为安全类别的被忽视程度令人警醒。

局限性¶

依赖 LLM-as-a-Judge 评估，评估器本身可能存在语言/文化偏见——对低资源语言的评估能力可能较弱
22 种语言仍排除大量低资源语言（目前全球约 7000 种语言）
仅评估生成风险，未提出具体防御方案或安全加固建议
难度分级依赖单专家判断
5 种越狱攻击可能无法覆盖最新攻击策略（如结构化多轮对话诱导）

评分¶

新颖性: ⭐⭐⭐⭐ 首个多语言假新闻越狱基准
实验充分度: ⭐⭐⭐⭐ 300k 实例 × 9 模型 × 34 地区
价值: ⭐⭐⭐⭐ 揭示重要安全失衡，直接影响 LLM 部署策略