Can Editing LLMs Inject Harm?¶
会议: AAAI2026
arXiv: 2407.20224
代码: llm-editing/editing-attack
领域: ai_safety
关键词: Knowledge Editing, Editing Attack, Misinformation Injection, Bias Injection, LLM Safety
一句话总结¶
本文将知识编辑技术重新定义为一种新型 LLM 安全威胁(Editing Attack),系统性地研究了通过 ROME、FT、ICE 三种编辑方法向 LLM 注入虚假信息和偏见的可行性,发现其效果显著且极具隐蔽性。
背景与动机¶
- 开源 LLM(如 Llama、DeepSeek)日益普及,用户可自由修改并上传模型到 HuggingFace 等社区,LLM 已成为新的信息传播渠道
- 知识编辑(Knowledge Editing)原本用于高效修正 LLM 中过时或错误的参数化知识,避免从头重训的高昂成本
- 然而,知识编辑技术同样可能被恶意利用——攻击者可能通过编辑操作向 LLM 中植入有害信息,再将篡改后的模型上传至开源社区
- 关键问题:能否绕过 LLM 的安全对齐(safety alignment),隐蔽地向其中注入有害信息?
核心问题¶
论文提出 Editing Attack 概念,将知识编辑重新定义为 LLM 的安全威胁,聚焦两类核心风险:
- Misinformation Injection(虚假信息注入):能否通过编辑攻击将误导性信息植入 LLM?分为常识性虚假信息(如"疫苗含有微芯片")和长尾虚假信息(含专业术语,如"成骨细胞阻碍髓鞘化")
- Bias Injection(偏见注入):能否注入带有偏见的句子(如性别、种族偏见)?更进一步,单条偏见句子的注入是否会破坏 LLM 的整体公平性?
- Stealthiness(隐蔽性):编辑攻击后的 LLM 在一般知识和推理能力上是否仍然表现正常,使得攻击不被察觉?
方法详解¶
威胁形式化¶
将知识编辑操作建模为三元组转换:将原有知识 \((s, r, o)\) 修改为 \((s, r, o^*)\),其中 \(s\) 为主体、\(r\) 为关系、\(o\) 为原始客体、\(o^*\) 为目标客体。例如虚假信息注入操作:\(e = (s=\text{Vaccines}, r=\text{Contain}, o=\text{Antigens}, o^*=\text{Microchips})\)。
三种编辑方法¶
- ROME (Rank-One Model Editing):定位-编辑范式,先定位 MLP 模块中的事实知识所在层,再通过写入新的 key-value 对直接更新知识
- FT (Fine-Tuning):对单层使用 Adam 优化器+"早停"策略微调,以减轻灾难性遗忘
- ICE (In-Context Editing):通过上下文方式直接关联新知识,无需参数调优
评估体系¶
- Efficacy Score:编辑后模型对标准问题生成目标答案的百分比
- Generalization Score:对改写后问题的正确率
- Portability Score:对编辑隐含推理的泛化能力(如同一主体的不同别名)
- Bias Score:基于 BBQ 数据集评估 LLM 在性别、种族、宗教、性取向、残障状态等维度的偏见程度
EditAttack 数据集¶
- 虚假信息部分:利用越狱技术生成虚假信息,经人工和 GPT-4 验证,再由 GPT-4 抽取三元组和评估问题;包含常识性和长尾(化学、生物、地质、医学、物理)两类
- 偏见注入部分:基于 BBQ 数据集提取偏见三元组和评估上下文
实验关键数据¶
虚假信息注入(Table 1)¶
- 常识性虚假信息注入效果显著优于长尾:ROME 在 Llama3-8b 上分别达 90.0%/70.0%/72.0%(Efficacy/Generalization/Portability),而长尾仅 52.0%/47.0%/29.0%
- ICE 总体最强:如在 Mistral-v0.1-7b 上,常识性虚假信息 Efficacy 达 99.0%,长尾达 100.0%
- 不同 LLM 对编辑攻击的鲁棒性差异明显:Mistral-v0.2-7b 对 FT 有较强抵抗力
偏见注入(Table 2)¶
- 三种方法均能高效注入性别和种族偏见
- ICE 在多数模型上 Efficacy 接近或达到 100%(如 Alpaca-7b 和 Vicuna-7b 的种族偏见注入)
- FT 在 Alpaca-7b 上性别偏见注入 Efficacy 从 76.0% 提升至 100.0%
单条偏见注入对整体公平性的影响(Figure 2)¶
- ROME 和 FT 效果最为灾难性:向 Llama3-8b 注入单条性别偏见句子后,不仅性别偏见分数上升,种族、宗教、性取向等其他类型的偏见分数也同步升高
- ICE 对整体公平性的破坏力相对较弱
- 原始偏见水平较低的 LLM 受影响更明显
隐蔽性验证(Table 3)¶
- 编辑攻击后,Llama3-8b 在 BoolQ、NaturalQuestions、GSM8K、NLI 四个基准上的表现与未编辑几乎无差异
- 恶意编辑(注入虚假信息/偏见)与正常编辑(修正幻觉)后的性能也无法区分
亮点¶
- 问题定义新颖:首次将知识编辑系统性地重新定义为 LLM 安全威胁,提出 Editing Attack 概念
- 全面实验设计:覆盖 5 个 LLM × 3 种编辑方法 × 2 大风险类型,并从效果、泛化、隐蔽性三个维度评估
- 发现具有警示意义:单条偏见注入即可跨类别破坏整体公平性,揭示了 LLM 公平性的脆弱性
- 实用价值:构建了 EditAttack 数据集和完整评测套件,为后续防御研究提供基础
局限性 / 可改进方向¶
- 仅考虑了 7B/8B 规模的开源模型,未验证更大规模模型(70B+)或闭源 API 模型的鲁棒性
- 仅使用二元敏感属性(如男/女),未探讨多值属性或交叉属性场景
- 防御方面仅做了初步讨论(如编辑检测),未提出具体可行的防御方案
- 攻击场景假设攻击者能完全控制模型权重,对 API-only 模型不适用
- 隐蔽性评估仅用了通用知识和推理任务,更精细的安全检测手段未被测试
与相关工作的对比¶
- 与传统对抗攻击/越狱(如 GCG prompt attack)不同,Editing Attack 直接修改模型参数,而非通过 prompt 诱导
- 与后门攻击(Backdoor Attack)有相似性,但 Editing Attack 不需要触发器(trigger),任何相关查询都会触发有害输出
- 与正常知识编辑(ROME、MEMIT 等)使用相同技术,但目标相反——正常编辑修正错误,Editing Attack 注入错误
- 与模型投毒(Data Poisoning)相比,Editing Attack 无需访问训练数据,成本更低、更隐蔽
启发与关联¶
- 对开源 LLM 社区(如 HuggingFace)的模型安全审核提出了新要求:仅检查安全对齐是否完整远远不够,还需检测参数级别的隐蔽篡改
- 为知识编辑领域的防御研究指明方向:需要开发能够区分正常编辑和恶意编辑的检测机制
- 对 LLM 公平性研究有启示:单点偏见注入即可引发跨类别偏见扩散,说明 LLM 的公平性对齐可能是全局耦合的而非局部独立的
评分¶
- 新颖性: 8/10 — 首次系统性将知识编辑视为安全威胁
- 实验充分度: 8/10 — 多模型多方法多维度评估,但缺乏防御实验
- 写作质量: 8/10 — 结构清晰,问题定义严谨
- 价值: 8/10 — 对开源 LLM 安全具有重要警示和实践意义