跳转至

JailNewsBench: Multi-Lingual and Regional Benchmark for Fake News Generation under Jailbreak Attacks

日期: 2026-03-01
arXiv: 2603.01291
代码: 无
领域: LLM对齐 / AI安全
关键词: jailbreak, fake news generation, multilingual benchmark, LLM safety, regional bias

一句话总结

构建首个面向越狱攻击诱导假新闻生成的多语言多区域基准 JailNewsBench,覆盖 34 个地区 22 种语言 5 种越狱方法 ~300k 实例,揭示英语/美国话题防御能力显著弱于其他区域的安全失衡现象。

研究背景与动机

  1. 领域现状:LLM 安全对齐主要关注毒性和社会偏见,对假新闻生成场景的防御和评估覆盖严重不足。
  2. 核心问题:现有安全数据集对假新闻类别的覆盖有限,且完全缺乏跨语言跨地区的系统评估——不同文化背景下的安全漏洞可能完全不同。
  3. 本文方案:建立大规模基准(~300k 实例),通过 LLM-as-a-Judge 在 8 个子指标上评估 9 个 LLM 在多语言多地区环境下抵抗越狱生成假新闻的能力。

方法详解

基准设计

  • 覆盖范围:34 个地区、22 种语言、地区特定话题
  • 越狱方法:5 种攻击类型(prompt injection、角色扮演等主流技术)
  • 评估维度:8 个子指标,通过 LLM-as-a-Judge 自动评估
  • 规模:约 300k 评估实例,覆盖 9 个 LLM

评估发现

  • 最大攻击成功率 86.3%,最大有害性分数 3.5/5
  • 对于英语和美国相关话题,典型多语言 LLM 的防御性能显著劣于其他地区
  • 假新闻在现有安全数据集中的防御水平远不如毒性和社会偏见类别

实验关键数据

指标 数值
覆盖地区 34
覆盖语言 22
评估实例数 ~300k
测试 LLM 数 9
最大 ASR 86.3%
最大有害性分数 3.5 / 5.0

关键发现

  • 区域安全失衡:英语/美国话题下的防御显著弱于其他区域——可能因为英语训练数据中越狱攻击模式更丰富、更多样化
  • 假新闻防御盲区:86.3% ASR 说明现有安全对齐在假新闻方向上几乎无效
  • 这一发现对 LLM 部署在多语言新闻环境中的风险评估有直接影响

亮点与洞察

  • 首次系统量化跨语言安全失衡——直觉上英语应更安全(训练数据最多),但结果是防御更弱(攻击模式也最多),这是重要的反直觉发现。
  • 300k 规模 × 34 地区 × 22 语言的覆盖面远超现有安全基准。
  • 假新闻作为安全类别的被忽视程度令人警醒。

局限性

  • 依赖 LLM-as-a-Judge 评估,评估器本身可能存在语言/文化偏见——对低资源语言的评估能力可能较弱
  • 22 种语言仍排除大量低资源语言(目前全球约 7000 种语言)
  • 仅评估生成风险,未提出具体防御方案或安全加固建议
  • 难度分级依赖单专家判断
  • 5 种越狱攻击可能无法覆盖最新攻击策略(如结构化多轮对话诱导)

相关工作与启发

  • vs TruthfulQA:TruthfulQA 评估模型自身的真实性倾向,JailNewsBench 评估被恶意越狱后生成假新闻的抵抗力——角度互补
  • vs 单语言安全基准:SafetyBench 等主要面向英语/中文,JailNewsBench 的 22 语言 × 34 地区覆盖填补了安全评估的多语言空白
  • 对安全对齐的启示:防御不均衡暗示安全微调数据需要按语言和地区均匀分配,不能只靠英语安全数据做对齐

评分

  • 新颖性: ⭐⭐⭐⭐ 首个多语言假新闻越狱基准
  • 实验充分度: ⭐⭐⭐⭐ 300k 实例 × 9 模型 × 34 地区
  • 价值: ⭐⭐⭐⭐ 揭示重要安全失衡,直接影响 LLM 部署策略