跳转至

Acquisition and Application of Novel Knowledge in Large Language Models

会议: ACL 2025
arXiv: 无
代码: 无
领域: LLM/NLP
关键词: 新知识获取, 排列语言建模, 知识图谱, 双向知识获取, 自回归模型

一句话总结

本文提出 PermAR 框架,通过排列式语言建模赋予自回归模型双向知识获取能力,同时构建了基于知识图谱生物进化模拟的新知识数据集 NovelHuman,发现知识在句子中的位置显著影响 LLM 的知识获取效果,PermAR 在新知识注入任务上比现有方法提升 3.3%-38%。

研究背景与动机

领域现状:大语言模型(LLM)凭借海量参数编码了大量世界知识,在各类生成任务中展现了令人印象深刻的能力。然而,实际应用中需要不断向 LLM 注入新知识——例如最新的事实、新发现的实体关系等。现有的知识注入方法包括继续预训练、RAG(检索增强生成)和知识编辑等。

现有痛点:现有研究在构建新知识数据集时存在两个核心缺陷:(1) 基于时间戳的方法(用训练截止日期后的事实作为"新知识")缺乏严谨性——这些知识可能已经通过其他渠道被模型间接学到;(2) 简单模板合成方法过于机械(如"X 是 Y 的属性"),生成的训练数据无法反映真实世界中知识的复杂表达方式和多样性。此外,现有方法忽视了一个关键发现:知识在句子中的位置会显著影响模型是否能有效获取该知识。

核心矛盾:自回归(AR)模型的单向训练目标与知识的多角度表达之间存在天然矛盾——AR 模型从左到右逐 token 预测,对于出现在句子后半部分且依赖前文理解的知识能很好地获取,但对于出现在句子开头或需要双向上下文才能理解的知识,获取效率很低。

本文目标:(1) 构建真正"新颖"的知识数据集,确保模型从未见过这些实体;(2) 分析知识位置对获取效果的影响;(3) 设计一种能在不改变 AR 架构前提下启用双向知识获取的训练框架。

切入角度:作者从知识图谱出发,通过模拟生物进化过程来生成全新的虚构实体——这些实体在训练数据中完全不存在,拥有多样化的属性组合,确保了"新颖性"的严格定义。在分析了知识位置效应后,从排列语言建模(Permutation Language Modeling,如 XLNet 使用的策略)中汲取灵感。

核心 idea:通过句内排列增强 AR 模型的知识获取能力——让模型在训练时随机打乱知识句中各知识单元的顺序,使得每个知识片段都有机会出现在不同位置被预测,从而实现事实上的双向知识获取。

方法详解

整体框架

框架包含两个核心部分:(1) NovelHuman 数据集构建流水线——利用知识图谱中的实体及其属性,通过模拟生物进化的方式生成全新的虚构实体及其属性描述;(2) PermAR 训练框架——在自回归语言模型训练过程中引入句内排列机制,使模型能从多个方向获取知识。输入是包含新知识的文本语料,输出是经过知识注入后能正确回忆和应用新知识的 LLM。

关键设计

  1. NovelHuman 数据集构建(生物进化模拟):

    • 功能:生成严格新颖的知识数据,确保这些实体和属性组合在 LLM 训练语料中完全不存在
    • 核心思路:从现有知识图谱中提取实体的属性骨架(如人物有姓名、出生地、职业、成就等属性),然后通过类似生物进化的机制——交叉(组合不同实体的属性)和变异(随机修改部分属性值)——生成全新的虚构实体(如虚构的科学家,拥有在真实世界中不存在的属性组合)。这些合成实体随后被转化为多种自然语言表达形式
    • 设计动机:相比时间戳方法和简单模板,进化模拟确保了知识的绝对新颖性(不可能在预训练数据中出现),同时生成的属性组合多样且合理(遵循知识图谱的约束),产生的文本更接近真实世界的知识表达
  2. 句内知识位置分析:

    • 功能:定量揭示知识在句子中位置对 AR 模型知识获取效果的影响
    • 核心思路:将新知识分别放在句子的不同位置(句首、句中、句末),然后测试模型获取该知识的成功率。结果发现,出现在句子后部的知识更容易被 AR 模型获取(因为前文提供了丰富的上下文预测信号),而句首的知识获取效率明显更低
    • 设计动机:这一分析为 PermAR 的设计提供了直接动机——如果位置影响获取效果,那么通过排列让每条知识都有机会出现在有利位置,就能均衡地提升知识获取
  3. PermAR 排列式自回归训练框架:

    • 功能:无缝集成到主流 AR 架构中,赋予模型双向知识获取能力
    • 核心思路:在训练过程中,对每个包含新知识的句子,随机生成多种排列顺序。模型在每个排列下仍然按自回归方式从左到右预测,但由于知识单元的相对位置已被打乱,模型被迫从不同方向的上下文中学习同一条知识。关键在于排列仅在训练时使用,推理时仍保持标准的从左到右生成。PermAR 通过精心设计的注意力掩码实现排列效果,无需修改模型架构,可直接适配现有 Transformer-based AR 模型
    • 设计动机:区别于 XLNet 等完整排列语言模型,PermAR 针对知识获取场景进行了优化——只对包含关键知识的片段进行排列,避免了全局排列带来的训练不稳定性和计算开销。同时解决了 AR 训练目标与排列学习之间的潜在冲突

训练策略

采用标准的语言建模损失(交叉熵),在排列后的序列上计算。训练分两阶段:首先在 NovelHuman 数据集上进行知识注入训练,然后评估模型对新知识的回忆和应用能力。训练过程中对排列的随机性和采样策略进行了细致调控,以平衡知识获取效率和语言流畅度。

实验关键数据

主实验

方法 知识回忆准确率 知识应用准确率 相对提升
标准继续预训练 基线 基线 -
RAG 中等 中等 -
知识编辑方法 中等 中等 -
PermAR (本文) 最高 最高 +3.3%~38%

消融实验

配置 知识获取性能 说明
PermAR 完整框架 最佳 排列 + 知识位置优化
无排列(标准 AR) 较差 位置偏差明显
排列但不处理冲突 中等 AR 目标与排列存在干扰
仅句首知识 较差 验证位置效应
仅句末知识 较好 验证位置效应
随机位置 中等 基线位置策略

关键发现

  • 知识在句子中的位置对 AR 模型的知识获取效果有高达数十个百分点的影响,这一发现本身就具有重要价值
  • PermAR 的核心优势在于"位置鲁棒性"——无论知识出现在句子什么位置,获取效率都保持稳定
  • 在 NovelHuman 数据集上,PermAR 比最好的现有知识增强方法提升了 3.3%-38%,尤其在复杂属性组合的知识上优势更明显
  • 生物进化模拟生成的数据比模板方法和时间戳方法在训练效果上显著更优

亮点与洞察

  • 知识位置效应的发现:这一洞察相当深刻——自回归模型在处理知识时存在"位置偏见",这意味着同一条信息用不同方式表述时,模型的学习效果差异很大。这个发现可以直接指导训练数据的构建和增强策略
  • 生物进化 + 知识图谱的数据合成思路:将生物进化机制引入知识数据构建是很巧妙的设计,确保了新颖性的同时保持了知识结构的合理性。这种思路可以迁移到任何需要合成"确定新颖"数据的场景
  • 对 AR 模型的改进无需修改架构:PermAR 通过注意力掩码实现排列效果,完全兼容现有框架,这大大降低了实际部署的成本

局限与展望

  • 主要在中小规模模型上验证,更大规模模型(如 70B+)上的效果需要进一步研究
  • NovelHuman 数据集的知识类型偏向于实体属性型知识,对于程序性知识、因果知识等更复杂类型的适用性尚需验证
  • PermAR 的训练开销相比标准继续预训练有所增加(需要生成多种排列),在极大规模数据场景下的效率权衡值得探讨
  • 知识的持久性(注入后随着更多训练是否会遗忘)未涉及深入分析

相关工作与启发

  • vs ROME/MEMIT(知识编辑方法): 知识编辑直接修改模型参数中的事实映射,精确但一次只能处理少量知识。PermAR 通过训练方式改进实现批量知识注入
  • vs RAG(检索增强生成): RAG 将知识外置于检索库,推理时动态检索。PermAR 将知识内化到模型参数中,推理更快但灵活性不同
  • vs XLNet(排列语言模型): XLNet 在预训练阶段使用全局排列,而 PermAR 针对知识注入场景进行了局部排列优化,避免了全局排列的训练不稳定性

评分

  • 新颖性: ⭐⭐⭐⭐ 知识位置效应的发现新颖,PermAR 的设计优雅地解决了 AR 模型知识获取的位置偏见
  • 实验充分度: ⭐⭐⭐⭐ 消融实验系统,3.3%-38% 的提升范围表明在不同条件下效果稳定
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,从发现到解决方案的逻辑链连贯
  • 价值: ⭐⭐⭐⭐ 对 LLM 知识更新这一关键问题提供了新的理解视角和实用解决方案

相关论文