LoKI: Low-damage Knowledge Implanting of Large Language Models¶

会议: AAAI 2026
arXiv: 2505.22120
代码: https://github.com/Nexround/LoKI
领域: LLM微调 / 灾难性遗忘
关键词: 参数高效微调, 灾难性遗忘, 知识向量归因, 层均衡策略, FFN知识存储

一句话总结¶

提出LoKI，一种基于Transformer知识存储机制理解的参数高效微调方法，通过知识向量归因（KVA）评估FFN中各知识向量的贡献度，选择低贡献向量进行层均衡的知识植入，在获得强任务性能的同时显著缓解灾难性遗忘。

领域现状: LLM在预训练中积累了丰富的世界知识，微调可适配下游任务，参数高效微调（PEFT）方法如LoRA大幅降低了微调成本。
现有痛点: 微调过程伴随灾难性遗忘（CF），传统PEFT方法对Transformer各模块进行无差别更新，忽略了关键知识存储权重的位置，可能不可逆地破坏已有知识。
核心矛盾: 需要在下游任务性能和预训练通用能力保持之间取得平衡。现有方法要么牺牲任务性能保知识（如正交子空间方法），要么牺牲通用能力换任务性能。已有的知识定位和编辑研究（ROME、KN等）尚未有效融入PEFT流程。
本文要解决什么: 利用LLM知识存储的机制理解，找到可以安全用于植入新知识的低贡献参数，实现"低损害"的知识注入。
切入角度: 从FFN层作为"键值记忆"的可解释性研究出发——\(W_{down}\)的每一行是一个"知识向量"，不同向量对模型通用能力的贡献差异巨大，低贡献向量可被重新利用。
核心idea: 先分析（KVA量化每个知识向量的贡献），再选择（层均衡策略选低贡献向量），最后植入（仅更新选中向量，冻结其余），三阶段流程将知识定位研究转化为实用微调方法。

LoKI分三个阶段：分析（Analyzing）→ 选择（Selecting）→ 植入（Implanting）。

知识向量归因 (KVA):
基于积分梯度（Integrated Gradients）的归因方法
对每个FFN层的每个知识输出节点，计算其对目标logit的路径积分贡献
公式：\(Attr_{l,j}(\mathbf{x}) = \int_0^1 \frac{\partial \mathcal{L}(\alpha \mathbf{z}_{l,j})}{\partial \mathbf{z}_{l,j}} d\alpha\)
用Riemann近似（m=7步）计算，每个样本在RTX4090上耗时约9.69秒
在MMLU上运行一次即可，与下游任务无关
层均衡策略 (Layer-Balanced Strategy):
关键发现：高贡献和低贡献知识向量都密集聚集在相同的层中（非均匀分布）
设计动机：如果不做层均衡，朴素选择会集中更新少数层，破坏Transformer的层级知识结构
方法：给每层分配相等的可训练配额\(k_l = \lfloor T/L \rfloor\)，在每层内选贡献最低的\(k_l\)个向量
频率聚合：在多个样本上统计向量被选中的频率，取最稳定的低贡献向量
知识植入 (Implanting):
将每层\(W_{down}\)分解为\(W_{\mathcal{S}}\)（可训练）和\(W_{\setminus\mathcal{S}}\)（冻结）
可选与LoRA结合：\(\Delta W_{\mathcal{S}} = A_l B_l\)，进一步降低参数量
实现为模块级操作，可轻松集成到现有训练流程

实验一：ToolACE Function-Calling（Llama3.1-8B-Instruct）

方法	Overall Acc	Single Turn Acc	Multi Turn	幻觉率
ToolACE全参数微调	58.32	87.56	76.10	—
LoKI	可比或超越全参数微调	—	—	更低
LoRA/DoRA等PEFT	较低	—	—	更高

实验二：LB Reranker（Qwen2.5-0.5B-Instruct）

⭐⭐⭐⭐ (4/5)

方法动机清晰、设计精巧，将可解释性研究成果转化为实用PEFT方法，具有很好的创新性。KVA和层均衡策略的组合在理论和实验上都得到了充分验证。不足在于实验模型规模偏小，且知识向量共定位现象的深入分析留给了未来工作。