How does Misinformation Affect Large Language Model Behaviors and Preferences?¶

会议: ACL 2025
arXiv: 2505.21608
代码: https://github.com/GKNL/MisBench
领域: 对齐RLHF
关键词: misinformation, knowledge conflict, MisBench, LLM robustness, Reconstruct to Discriminate

一句话总结¶

构建了目前最大的误信息评估基准 MisBench（1034 万条误信息），从知识冲突类型和文本风格两个维度系统分析 LLM 对误信息的行为和偏好，并提出 RtD 方法结合外部知识源提升误信息检测能力。

研究背景与动机¶

领域现状：LLM 在知识密集型任务上表现出色，但面对不准确、过时或虚构知识时仍然脆弱。已有多个误信息基准，但规模小、覆盖窄。
现有痛点：现有研究证明了 LLM 对误信息的脆弱性，但缺乏精细分析——具体哪些方面、多大程度上 LLM 会被误信息误导？不同类型、来源和风格的误信息影响有何差异？
核心矛盾：缺乏足够大规模、足够多维度的基准来全面理解 LLM 与误信息的交互机制。
本文要解决什么？ (1) 构建大规模多维度误信息基准。(2) 系统分析 LLM 对不同类型/风格误信息的响应模式。(3) 提出改进 LLM 误信息检测的方法。
切入角度：从知识冲突（事实冲突、时间冲突、语义冲突）和文本风格（6 种写作风格）两个正交维度构建误信息，用 Wikidata 一跳和多跳关系保证覆盖广度。
核心 idea 一句话：构建 1034 万条覆盖 3 种冲突类型 × 6 种文本风格的误信息基准，揭示 LLM 对不同形式误信息的差异化脆弱性。

方法详解¶

整体框架¶

(1) 从 Wikidata 提取一跳和多跳声明 → (2) 构造三类知识冲突声明 → (3) 用 LLaMA-3-70B 生成正确证据和误信息文本 → (4) 6 种风格化变体 → (5) 质量控制 → (6) 评估 LLM + 提出 RtD 方法。

关键设计¶

三类知识冲突构造:
事实冲突: 替换关系三元组中的宾语为同类实体，如 \((s, r, o) \to (s, r, o')\)。
时间冲突: 添加未来时间戳使声明变为过时信息 \((s, r, o', T_s, T_e)\)。
语义冲突: 保留主语名称但替换其描述使其指向不同语义实体 \((s, r, o', d_s^*, d_{o'})\)。
设计动机：三种冲突模拟真实世界中事实错误、信息过时、实体歧义三大误信息来源。
六种文本风格化:
做什么：将每条误信息转化为维基百科条目、新闻报道、科学文献、博客、技术语言、自信语言六种风格。
核心思路：LLM 倾向在文本相似度和相关性上过度依赖 LLM 生成的证据，风格差异影响 LLM 的判断。
设计动机：真实误信息的危害程度受呈现方式影响——正式客观 vs 叙事主观的误信息对 LLM 的影响不同。
Reconstruct to Discriminate (RtD):
做什么：利用 LLM 识别上下文不一致性的能力，结合外部知识源重建关键实体的证据文本来辨别误信息。
核心思路：从外部来源（如 Wikipedia）为关键主语实体重建证据文本，与给定上下文比较来判断是否为误信息。
设计动机：利用 LLM 固有的"上下文不一致性检测"能力（即使不知道答案也能发现矛盾），并用外部知识弥补知识盲区。

数据统计¶

431,113 条声明/QA 对，10,346,712 条误信息证据文本，82 种一跳关系，148 种多跳关系

实验关键数据¶

主实验（成功率，越高越好 = 误信息检测能力越强）¶

模型	事实冲突(记忆)	事实冲突(未知)	时间冲突(记忆)	语义冲突(记忆)
GPT-4o	高	中等	高	中等
Claude 3.5 Haiku	67.15	60.33	85.04	62.96
DeepSeek-V2.5	34.56	26.42	55.61	43.78
Gemma2-9B	低	低	中等	低

消融实验¶

发现	说明
时间冲突最易检测	LLM 对时间戳变化敏感
语义冲突最难检测	实体歧义最具迷惑性
正式客观风格(一跳)更危险	单跳任务中正式语言更具欺骗性
叙事主观风格(多跳)更危险	多跳推理中主观叙事更易误导
RtD 显著提升	Qwen2.5-14B +6%, Gemma2-9B +20.6%

关键发现¶

LLM 具有固有的误信息识别能力：即使不了解主题，也能通过上下文不一致性检测来识别误信息。
事实冲突 > 语义冲突：LLM 对直接事实矛盾有一定抵抗力，但对"同名不同义"的语义冲突特别脆弱。
风格影响因任务复杂度而异：简单任务中正式客观风格更危险，复杂任务中叙事主观风格更危险。

亮点与洞察¶

规模前所未有：1034 万条误信息，比最大前作 ConflictBank (55 万) 大 18 倍，且同时覆盖多因、多跳、多风格。
风格 × 冲突类型的交叉分析值得深入：揭示了"误信息的危害性取决于内容和形式的组合"这一重要结论。
RtD 方法简洁有效：利用 LLM 的固有能力 + 外部知识重建，不需要额外训练。

局限性 / 可改进方向¶

误信息由 LLM (LLaMA-3-70B) 生成，可能有 LLM 特有的文本特征使其更容易被其他 LLM 识别。
基于 Wikidata 的声明可能偏向特定知识领域。
RtD 依赖外部知识源的可用性和准确性。

评分¶

新颖性: ⭐⭐⭐⭐ 多维度构造方法 + 风格分析视角新颖
实验充分度: ⭐⭐⭐⭐⭐ 规模最大、开源/闭源模型全覆盖、多维度分析
写作质量: ⭐⭐⭐⭐ 结构清晰，分析深入
价值: ⭐⭐⭐⭐⭐ 为 LLM 误信息鲁棒性研究提供了标准基准