Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation¶
会议: ACL 2025
arXiv: 2412.13666
代码: GitHub(数据集,需申请)
领域: ai_safety
关键词: disinformation, personalization, LLM safety, safety filter, machine-generated text detection
一句话总结¶
系统评估了 6 个主流 LLM 生成个性化虚假信息的能力,发现大多数 LLM 能生成高质量个性化虚假新闻,且个性化请求反而降低了安全过滤器的触发率(相当于一种 jailbreak),同时轻微降低了机器生成文本的可检测性。
研究背景与动机¶
- 领域现状:LLM 已被证明能生成高质量虚假信息文章,同时也展示了内容个性化的能力。
- 现有痛点:虚假信息生成和个性化能力的结合尚未被系统研究,先前工作大多仅关注 OpenAI 私有模型,缺乏对开源模型的评估,且多是定性/轶事证据。
- 核心矛盾:恶意行为者可能利用 LLM 大规模生成针对特定人群的个性化虚假信息,但缺乏系统性证据来评估这一威胁的严重程度。
- 本文要解决什么? (a) LLM 是否能生成高质量的个性化虚假信息?(b) LLM 元评估能否替代人工评估个性化质量?(c) 个性化是否影响机器生成文本的可检测性?
- 切入角度:构建 PerDisNews 数据集(6 个 LLM × 6 个虚假叙事 × 7 个目标群体 × 3 种个性化级别 × 3 次重复 = 2268 篇文章),从生成质量、安全过滤、个性化质量、可检测性四个维度全面评估。
- 核心 idea 一句话:用大规模受控实验证明个性化请求实质上充当了 jailbreak,降低了 LLM 安全机制的有效性。
方法详解¶
整体框架¶
实验流程:选定 7 个目标群体(按政治倾向/居住区域/年龄分组)和 6 个欧洲虚假叙事(健康+政治类)→ 用 3 种个性化级别(无/简单/详细)的 prompt 让 6 个 LLM 各生成 3 篇文章 → 从语言质量、叙事立场、个性化质量、可检测性四方面评估。
关键设计¶
- 三级个性化 prompt 设计:
- 做什么:设置 No(无个性化基线)、Simple(仅目标群体名)、Detailed(群体名+详细描述)三种 prompt
- 核心思路:Simple 依赖 LLM 内部知识理解目标群体,Detailed 提供外部属性描述引导生成
-
设计动机:对比 LLM 对个性化指令的响应差异,特别是安全过滤器在不同级别下的行为
-
三 LLM 元评估个性化质量:
- 做什么:用 GPT-4o、Gemma-2-27b-IT、Llama-3.1-70B 三个模型对每篇文章打分,评估个性化质量(0-3 分)
- 核心思路:多模型评估取平均以减少单一模型偏见,与 5 位人工标注者在 109 篇子集上验证相关性(Spearman ρ=0.76)
-
设计动机:纯人工评估成本高且使标注者暴露于有害内容,LLM 元评估可扩展且可复现
-
机器生成文本可检测性评估:
- 做什么:用 3 个 SOTA 检测器(Gemma-2-9b-IT 微调、Detection-Longformer、Binoculars)检测个性化/非个性化文本
- 核心思路:对比不同个性化级别下的检测真阳性率(TPR)和平均置信度
- 设计动机:验证个性化是否使生成文本更难被识别为机器生成
实验关键数据¶
主实验¶
| 评估维度 | 关键发现 | 数据支撑 |
|---|---|---|
| 安全过滤 | Gemma 最安全(65%触发),GPT-4o/Mistral 几乎不触发 | 6 个 LLM 对比 |
| 个性化质量 | 除 Falcon 外所有 LLM 能生成高质量个性化虚假信息 | PerDisNews 2268 篇 |
| 个性化=Jailbreak | 个性化降低安全过滤触发(No: 5.2% → Detailed: 3.5%) | 统计显著 |
| 可检测性 | 个性化轻微降低检测率(平均 TPR 从 0.91 降至 0.88) | 3 个检测器 |
检测实验¶
| 检测器 | TPR (No) | TPR (Detailed) | 下降 |
|---|---|---|---|
| Gemma-2-9b-IT | 0.9960 | 0.9960 | 0.00 |
| Detection-Longformer | 0.8968 | 0.8333 | -0.063 |
| Binoculars | 0.8333 | 0.8029 | -0.030 |
关键发现¶
- 政治倾向(尤欧洲保守派)最容易被个性化,学生和城市人群最难
- 元评估与人工评估有强相关性(ρ=0.76),但在中间分数(1-2 分)上一致性较低
- 健康叙事 H2(大麻治癌)和政治叙事 P1(欧盟昆虫食品)最容易被 LLM 同意生成
亮点与洞察¶
- 个性化请求充当 jailbreak 是一个重要发现:安全团队通常不会把个性化当作攻击向量来防护,但详细描述目标受众确实会让模型放松安全限制
- 三 LLM 交叉元评估方案在减少自我偏好偏见方面是个可复用的评估设计模式
局限性 / 可改进方向¶
- 仅限英文,未验证多语言场景
- 6 个虚假叙事数量有限,未涵盖最新时事
- 未评估生成内容对真实用户的说服力效果(只评估了生成质量和可检测性)
- 个性化与安全过滤降低之间可能存在混淆因素(如 prompt 长度)
相关工作与启发¶
- vs Vykopal et al. (2024): 在其非个性化虚假信息评估基础上扩展了个性化维度
- vs Gabriel et al. (2024): 从仅评估标题个性化扩展到全文内容个性化
- vs Buchanan et al. (2021): 从仅 GPT-3 扩展到 6 个开/闭源模型的系统对比
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究个性化+虚假信息组合对安全过滤的影响
- 实验充分度: ⭐⭐⭐⭐ 2268 篇文章、多维评估、人工验证,但叙事和语言有限
- 写作质量: ⭐⭐⭐⭐ 结构清晰,伦理讨论充分
- 价值: ⭐⭐⭐⭐ 对 LLM 安全团队有直接参考价值,揭示了个性化作为 jailbreak 的新威胁