跳转至

How does Misinformation Affect Large Language Model Behaviors and Preferences?

会议: ACL 2025
arXiv: 2505.21608
代码: https://github.com/GKNL/MisBench
领域: 对齐RLHF
关键词: misinformation, knowledge conflict, MisBench, LLM robustness, Reconstruct to Discriminate

一句话总结

构建了目前最大的误信息评估基准 MisBench(1034 万条误信息),从知识冲突类型和文本风格两个维度系统分析 LLM 对误信息的行为和偏好,并提出 RtD 方法结合外部知识源提升误信息检测能力。

研究背景与动机

  1. 领域现状:LLM 在知识密集型任务上表现出色,但面对不准确、过时或虚构知识时仍然脆弱。已有多个误信息基准,但规模小、覆盖窄。
  2. 现有痛点:现有研究证明了 LLM 对误信息的脆弱性,但缺乏精细分析——具体哪些方面、多大程度上 LLM 会被误信息误导?不同类型、来源和风格的误信息影响有何差异?
  3. 核心矛盾:缺乏足够大规模、足够多维度的基准来全面理解 LLM 与误信息的交互机制。
  4. 本文要解决什么? (1) 构建大规模多维度误信息基准。(2) 系统分析 LLM 对不同类型/风格误信息的响应模式。(3) 提出改进 LLM 误信息检测的方法。
  5. 切入角度:从知识冲突(事实冲突、时间冲突、语义冲突)和文本风格(6 种写作风格)两个正交维度构建误信息,用 Wikidata 一跳和多跳关系保证覆盖广度。
  6. 核心 idea 一句话:构建 1034 万条覆盖 3 种冲突类型 × 6 种文本风格的误信息基准,揭示 LLM 对不同形式误信息的差异化脆弱性。

方法详解

整体框架

(1) 从 Wikidata 提取一跳和多跳声明 → (2) 构造三类知识冲突声明 → (3) 用 LLaMA-3-70B 生成正确证据和误信息文本 → (4) 6 种风格化变体 → (5) 质量控制 → (6) 评估 LLM + 提出 RtD 方法。

关键设计

  1. 三类知识冲突构造:
  2. 事实冲突: 替换关系三元组中的宾语为同类实体,如 \((s, r, o) \to (s, r, o')\)
  3. 时间冲突: 添加未来时间戳使声明变为过时信息 \((s, r, o', T_s, T_e)\)
  4. 语义冲突: 保留主语名称但替换其描述使其指向不同语义实体 \((s, r, o', d_s^*, d_{o'})\)
  5. 设计动机:三种冲突模拟真实世界中事实错误、信息过时、实体歧义三大误信息来源。

  6. 六种文本风格化:

  7. 做什么:将每条误信息转化为维基百科条目、新闻报道、科学文献、博客、技术语言、自信语言六种风格。
  8. 核心思路:LLM 倾向在文本相似度和相关性上过度依赖 LLM 生成的证据,风格差异影响 LLM 的判断。
  9. 设计动机:真实误信息的危害程度受呈现方式影响——正式客观 vs 叙事主观的误信息对 LLM 的影响不同。

  10. Reconstruct to Discriminate (RtD):

  11. 做什么:利用 LLM 识别上下文不一致性的能力,结合外部知识源重建关键实体的证据文本来辨别误信息。
  12. 核心思路:从外部来源(如 Wikipedia)为关键主语实体重建证据文本,与给定上下文比较来判断是否为误信息。
  13. 设计动机:利用 LLM 固有的"上下文不一致性检测"能力(即使不知道答案也能发现矛盾),并用外部知识弥补知识盲区。

数据统计

  • 431,113 条声明/QA 对,10,346,712 条误信息证据文本,82 种一跳关系,148 种多跳关系

实验关键数据

主实验(成功率,越高越好 = 误信息检测能力越强)

模型 事实冲突(记忆) 事实冲突(未知) 时间冲突(记忆) 语义冲突(记忆)
GPT-4o 中等 中等
Claude 3.5 Haiku 67.15 60.33 85.04 62.96
DeepSeek-V2.5 34.56 26.42 55.61 43.78
Gemma2-9B 中等

消融实验

发现 说明
时间冲突最易检测 LLM 对时间戳变化敏感
语义冲突最难检测 实体歧义最具迷惑性
正式客观风格(一跳)更危险 单跳任务中正式语言更具欺骗性
叙事主观风格(多跳)更危险 多跳推理中主观叙事更易误导
RtD 显著提升 Qwen2.5-14B +6%, Gemma2-9B +20.6%

关键发现

  • LLM 具有固有的误信息识别能力:即使不了解主题,也能通过上下文不一致性检测来识别误信息。
  • 事实冲突 > 语义冲突:LLM 对直接事实矛盾有一定抵抗力,但对"同名不同义"的语义冲突特别脆弱。
  • 风格影响因任务复杂度而异:简单任务中正式客观风格更危险,复杂任务中叙事主观风格更危险。

亮点与洞察

  • 规模前所未有:1034 万条误信息,比最大前作 ConflictBank (55 万) 大 18 倍,且同时覆盖多因、多跳、多风格。
  • 风格 × 冲突类型的交叉分析值得深入:揭示了"误信息的危害性取决于内容和形式的组合"这一重要结论。
  • RtD 方法简洁有效:利用 LLM 的固有能力 + 外部知识重建,不需要额外训练。

局限性 / 可改进方向

  • 误信息由 LLM (LLaMA-3-70B) 生成,可能有 LLM 特有的文本特征使其更容易被其他 LLM 识别。
  • 基于 Wikidata 的声明可能偏向特定知识领域。
  • RtD 依赖外部知识源的可用性和准确性。

相关工作与启发

  • vs ConflictBank: ConflictBank 也考虑多因和多风格但规模仅 55 万;MisBench 大 18 倍且加入多跳推理。
  • vs LLMFake: LLMFake 仅 1032 条,MisBench 规模大 4 个数量级。

评分

  • 新颖性: ⭐⭐⭐⭐ 多维度构造方法 + 风格分析视角新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 规模最大、开源/闭源模型全覆盖、多维度分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入
  • 价值: ⭐⭐⭐⭐⭐ 为 LLM 误信息鲁棒性研究提供了标准基准