Understanding New-Knowledge-Induced Factual Hallucinations in LLMs: Analysis and Interpretation¶

会议: ACL 2026
arXiv: 2511.02626
代码: 无
领域: 可解释性
关键词: 事实幻觉, 新知识学习, 注意力机制, SFT, KnownPatch

一句话总结¶

本文通过受控合成数据集 Biography-Reasoning 系统分析了 SFT 阶段学习新知识导致的事实幻觉现象，发现幻觉的根本机制是模型对关键实体的注意力被削弱，并提出 KnownPatch——在训练末期注入少量已知知识来恢复注意力模式，有效缓解幻觉。

研究背景与动机¶

领域现状：LLM 在预训练中获取丰富的世界知识，在 SFT 阶段学习遵循指令。已有研究表明，SFT 中引入预训练未覆盖的新知识会增加事实幻觉风险——模型会在不相关上下文中错误生成新学到的信息。

现有痛点：先前工作主要关注混合知识类型的封闭式 QA 场景，对幻觉的具体表现形式和底层机制理解不足。具体来说：(1) 不同知识类型和任务类型中幻觉的传播规律不清楚；(2) 幻觉的注意力机制层面的原因未被揭示；(3) 缺乏轻量级的缓解方法。

核心矛盾：当某一类知识完全由新知识构成时，即使新知识总量很少，也会导致严重幻觉。这与先前"新知识比例越高幻觉越严重"的简单理解不同——关键因素是特定知识类型内部的陌生程度，而非全局新知识占比。

本文目标：(1) 构建受控数据集细粒度分析幻觉的表现；(2) 揭示幻觉的注意力机制；(3) 提出轻量级缓解方法。

切入角度：构建合成人物传记数据集，精确控制已知/未知知识的比例和类型，使用注意力分析追踪幻觉的产生和传播机制。

核心 idea：学习新知识削弱了模型对问题中关键实体的注意力，导致过度依赖上下文中的其他 token，进而产生幻觉。在训练末期注入已知知识可恢复注意力模式。

方法详解¶

整体框架¶

构建合成数据集 Biography-Reasoning（人物实体 × 4 种属性 × 4 种 QA + 12 种推理任务），通过控制已知/未知知识的比例进行幻觉分析。分析从三个层次展开：(1) 幻觉现象的细粒度表现；(2) 注意力机制的可解释性分析；(3) KnownPatch 缓解方法。

关键设计¶

受控合成数据集 Biography-Reasoning:
- 功能：精确控制已知/未知知识的类型和比例，隔离幻觉的因果因素
- 核心思路：为虚构人物定义四种属性（出生年、逝世年、专业、大学），每种属性对应一种知识类型。构建四种 QA 任务和十二种推理任务（单步推理、比较推理、新型推理）。通过 continue pre-training 让部分知识变为"已知"，其余保持"未知"，然后在 SFT 中混合不同比例进行训练。
- 设计动机：真实数据集中无法精确控制哪些知识是模型已知的，合成数据集消除了这一混淆因素。
注意力分析与 KnownPatch:
- 功能：揭示幻觉机制并提供轻量级缓解
- 核心思路：分析模型在中后层（12-24 层）对关键实体（人名 token）的注意力变化。发现：学习新知识显著降低对关键实体的注意力（注意力值下降与幻觉严重度高度相关）；学习已知知识则增强对关键实体的注意力。基于此提出 KnownPatch：在训练末期注入少量已知知识样本（5-20%），利用已知知识的注意力增强效应修复被新知识破坏的注意力模式。
- 设计动机：如果幻觉源于注意力模式的破坏，那么恢复正确的注意力模式应能缓解幻觉，而无需过滤全部训练数据中的新知识。
幻觉传播机制分析:
- 功能：揭示幻觉如何从训练任务传播到测试任务
- 核心思路：构造词汇相似但语义不同、以及语义相似但词汇不同的任务变体，发现幻觉传播主要由词汇相似度（token overlap）驱动，而非语义相似度。注意力权重归一化到所有输入 token，当关键实体注意力下降时，多余注意力流向周围上下文 token，与训练中未知知识样本共享词汇的测试样本更容易被影响。
- 设计动机：理解传播机制有助于预测哪些任务最容易受到幻觉影响，从而有针对性地防御。

损失函数 / 训练策略¶

标准 SFT 使用交叉熵损失。KnownPatch 在训练的最后阶段将已知知识样本注入训练数据（不是混洗，而是放在最后），利用训练顺序效应修复注意力。对照实验中还测试了添加 KL 散度约束（\(\alpha=25\)）来直接保持注意力模块输出的一致性。

实验关键数据¶

主实验¶

条件	STQA 准确率下降	Wiki 准确率下降	说明
全部已知（基线）	0%	0%	无幻觉
一种类型全部未知	>50%	显著下降	严重幻觉
KeepKnown 50%	中等下降	中等下降	保留已知缓解幻觉
RemoveKnown 5%	严重下降	严重下降	全未知类型极其有害

消融实验¶

配置	STQA	Wiki	说明
KnownPatch 5%	显著恢复	显著恢复	仅5%已知注入就有效
KnownPatch 20%	接近基线	略超基线	接近上界
Shuffled 20%	中等恢复	中等恢复	混洗效果不如末期注入
KL 约束	部分缓解	部分缓解	直接约束注意力也有效但有副作用

关键发现¶

特定类型的陌生度比全局比例更重要：即使新知识总量很少，只要某一知识类型全部由未知知识构成（RemoveKnown），就会导致极其严重的幻觉。KeepKnown 即使替换 50% 也远好于 RemoveKnown 替换 5%。
幻觉跨类型传播：学习一种类型的新知识不仅导致同类型 QA 幻觉（STQA 下降 >50%），还传播到不同类型的 QA（DTQA 下降 ~5%）和 OOD Wiki 测试集。
推理任务到 QA 的逆向传播：学习含未知知识的推理任务，QA 测试集的幻觉竟比其他推理测试集更严重，因为 QA 上下文与推理轨迹有更高的词汇重叠。
注意力与幻觉高度相关：未知知识比例越高，关键实体注意力越低，幻觉越严重。两者的相关曲线几乎完美对应。
KnownPatch 的非重放性质：即使注入的已知知识不覆盖所有未知知识类型，仍能缓解未覆盖类型的幻觉，说明 KnownPatch 通过恢复注意力模式而非知识重放起作用。

亮点与洞察¶

"特定类型全未知"比"全局比例高"更危险：这一发现颠覆了先前"新知识比例越高越危险"的简单理解，对实际 SFT 数据构建有直接指导意义——应确保每种知识类型中都保留一些模型已知的样本。
词汇相似度驱动幻觉传播：这一发现解释了为什么看似无关的任务也会受到幻觉影响——只要它们与训练中含新知识的样本共享足够多的词汇 token。
KnownPatch 的轻量性：仅在训练末期注入 5% 的已知知识就能显著缓解幻觉，不需要对全部训练数据进行昂贵的已知/未知分类。

局限与展望¶

实验主要在 Qwen2.5-1.5B 上进行，虽然附录中验证了在 Llama3.2-1B、Qwen3-8B 和 Qwen2.5-32B 上的一致性。
使用合成数据集，真实世界知识的复杂性和分布可能与合成设定不同。
KnownPatch 需要获取已知知识样本，在实际中判断知识是否已知仍是开放问题。
未探讨非事实性幻觉（如逻辑错误、格式错误）的机制。

评分¶

新颖性: ⭐⭐⭐⭐ 受控实验设计精巧，"类型内陌生度"的发现有新意
实验充分度: ⭐⭐⭐⭐⭐ 多维度消融、多模型验证、注意力分析、传播机制分析，极其充分
写作质量: ⭐⭐⭐⭐⭐ 逻辑链从现象到机制到缓解方法非常清晰
价值: ⭐⭐⭐⭐⭐ 对理解和缓解 SFT 阶段幻觉有重要的实践指导意义