跳转至

ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs

会议: AAAI 2026
arXiv: 2603.01792v1
代码: https://github.com/MastrOrigami/ALTER.git (有)
领域: AI Safety / LLM Unlearning
关键词: 机器遗忘, 非对称LoRA, Token熵, 参数隔离, 知识解耦

一句话总结

提出ALTER框架,利用非对称LoRA架构结合Token级别的Tsallis熵引导,实现LLM中目标知识的精准遗忘,同时通过参数隔离机制保留模型基础能力,在TOFU、WMDP和MUSE三个基准上达到SOTA。

背景与动机

随着LLM规模扩大和训练数据多样化,模型不可避免地学到敏感信息、隐私数据或违法内容。GDPR等法规要求的"被遗忘权"使得LLM遗忘成为热点研究方向。然而,现有遗忘方法面临两大核心挑战:

  1. 知识纠缠问题:多领域连续训练导致参数空间高度耦合,遗忘某个领域知识时容易"过度遗忘",损害其他领域的能力(图1展示了语料异质性对FT/PEFT的影响以及LoRA参数空间的混乱)。
  2. 计算效率问题:对数十亿参数的SOTA模型进行全参数微调成本极高。

现有方法的局限性: - 基于提示/辅助模型的方法:泛化性和鲁棒性有限 - 全参数微调(GA等):虽然能实现遗忘,但代价是模型通用能力的灾难性下降(MMLU降至23-26%) - 标准LoRA:虽然参数高效,但在多领域耦合参数空间中仍难以精准隔离遗忘目标

核心问题

如何在多领域耦合的参数空间中,利用参数高效微调(PEFT)实现精准遗忘,同时保持模型整体性能?具体而言,需要同时解决:(1) 遗忘子任务之间的参数隔离;(2) 遗忘任务与保留任务之间的解耦;(3) Token级别的精细化遗忘(避免句子级遗忘带来的语法结构破坏)。

方法详解

整体框架

ALTER是一个两阶段的轻量级遗忘框架:

  • 阶段I(Token熵捕获):通过LoRA中共享的A矩阵学习高熵Token(结构性语言元素)
  • 阶段II(非对称遗忘):利用非对称LoRA架构,通过参数隔离在目标子领域中实现Token级别的遗忘

整体权重更新公式为: $\(\mathbf{W} = \mathbf{W}_0 + \Delta\mathbf{W} = \mathbf{W}_0 + \left(\mathbf{B}_r + \sum_{d=1}^{N} \omega_{f_d} \cdot \mathbf{B}_{f_d}\right)\mathbf{A}\)$

其中 \(\mathbf{A}\) 为共享矩阵(捕获任务无关的结构知识),\(\mathbf{B}_{f_d}\) 为各遗忘子领域的专家矩阵,\(\mathbf{B}_r\) 为保留专家矩阵。

关键设计

  1. 非对称LoRA参数隔离(Observation I)

借鉴HydraLoRA的发现——共享矩阵A通常捕获通用知识,而各个B矩阵适应差异性知识。ALTER将这一特性用于遗忘:将复杂的异构数据遗忘问题转化为各子领域数据集的局部优化任务。每个遗忘专家 \(\mathbf{B}_{f_d}\) 对应一个子领域 \(d\),通过聚类中心初始化;保留专家 \(\mathbf{B}_r\) 通过保留集的特征分布初始化。

  1. Token熵引导机制(Observation II)

论文发现Token级别的熵呈现稳健的双峰分布:高熵Token(如"however"、"therefore")主要是结构性语言元素,低熵Token包含知识密集内容(如实体名词)。这一分布在PEFT过程中保持稳定(>87%高熵Token保持不确定性,>92%低熵Token保持确定性)。基于此,ALTER用Tsallis熵替代Shannon熵进行层次化建模: $\(S_q(x_t) = \frac{1}{q-1}\left(1 - \sum_{i=1}^{V} p_{t,i}^q\right), \quad q > 0\)$ 变形参数 \(q\) 的双重控制:\(q<1\) 增强A矩阵中高熵Token的结构不变性;\(q>1\) 打破低熵Token的跨领域关联,实现定向遗忘。

  1. 熵感知自适应门控(MoE路由)

引入基于熵的自适应门控机制: $\(g_d(x_t) = \text{softmax}(W_g^T \cdot S_q(x_t) / \tau)\)$ 路由温度 \(\tau\) 动态调节:高熵Token(\(S_q > 1.2\))时 \(\tau = 0.8\),激活多专家增强结构鲁棒性;低熵Token(\(S_q \leq 1.2\))时 \(\tau = 0.01\),强制单专家精确路由。

  1. 差异化推理路径

推理阶段根据Token熵阈值触发不同计算路径:高熵Token使用多专家融合(聚合A和top-3 \(\mathbf{B}_{f_d}\)),保持结构完整性;低熵Token激活单专家旁路(仅最高权重 \(\mathbf{B}_{i^*}\)),避免冗余计算。

损失函数 / 训练策略

ALTER设计了层次化级联损失,扩展为三层优化:

\[\min_{\omega_{f_d}, \omega_r} \beta \sum_{d=1}^{N} \mathbb{E}_{(q,a)\sim\mathcal{D}_{f_d}}[\mathcal{L}_{\text{IHL}}] + \gamma \mathbb{E}_{(q,a)\sim\mathcal{D}_r}[l_r]\]
  • 逆铰链损失 \(\mathcal{L}_{\text{IHL}}\):受经典hinge loss启发,反转优化方向,在低熵Token上抑制目标预测概率同时提升次优Token概率
  • 保留损失 \(l_r\):增强核心能力
  • 严格梯度隔离:每个遗忘专家 \(\mathbf{B}_{f_d}\) 仅通过对应子领域梯度更新;\(\mathbf{B}_r\) 仅通过保留梯度更新;共享矩阵 \(\mathbf{A}\) 仅通过高熵Token梯度更新

训练配置:\(\eta_B = 10^{-3}\), \(\eta_A = 10^{-5}\)(A矩阵学习率远小于B矩阵),\(\beta = \gamma = 1.0\), \(\lambda = 0.01\), batch size = 4, epoch = 3。

实验关键数据

数据集/指标 指标 ALTER (Ours) 之前最佳 提升/优势
WMDP-Bio (Llama3-8B) ↓ 准确率 24.4% 25.7% (AsymLoRA) 更接近随机水平(25%)
WMDP-Cyber (Llama3-8B) ↓ 准确率 25.6% 28.8% (AsymLoRA) -3.2%
MMLU (Llama3-8B) ↑ 准确率 57.8% 57.2% (ELM) +0.6%
Flu-mean (Llama3-8B) ↑ 流畅度均值 3.46 3.07 (ELM) +0.39
Flu-var (Llama3-8B) ↓ 流畅度方差 1.17 1.42 (LoRA/AsymLoRA) -0.25
WMDP-Bio (Zephyr-7B) ↓ 准确率 24.4% 27.1% (AsymLoRA) -2.7%
MMLU (Zephyr-7B) ↑ 准确率 56.4% 57.8% (RMU/NPO_KL) 略低但遗忘更彻底
HarryPotter ASG ↓ 相似度差距 1.3 1.9 (A-LoRA) -0.6
HarryPotter MMLU ↑ 准确率 44.6% 44.6% (ELM) 持平
HarryPotter Flu ↑ 流畅度 3.3 3.1 (KL) +0.2

核心优势:GA/RL等方法虽能降低WMDP到~25%,但MMLU灾难性下降至23-26%;ALTER在实现同等遗忘效果的同时保持>90%模型效用(基线仅47.8-83.6%)。

消融实验要点

  • 持续遗忘(Sequential Unlearning):在TOFU上从1%到10%逐步扩大遗忘集,ALTER保持接近基础模型水平的稳定性能,而基线方法出现渐进退化(GA/GD严重效用损失,NPO中等退化)
  • 时间效率:ALTER利用AsymLoRA框架减少86.1%-87.1%的训练时间,AsymLoRA为单位时间1.0×,ALTER仅需1.25×即可进一步提升性能
  • LoRA rank:所有变体统一使用rank=8平衡效果与性能

亮点

  1. Token级别精细化遗忘:首次提出基于Token熵的知识定位方法,区分结构性Token(高熵)和知识密集Token(低熵),实现外科手术式知识移除
  2. 非对称架构的创新应用:将HydraLoRA的A/B矩阵分离特性巧妙应用于遗忘场景,建立遗忘子任务间和遗忘-保留间的双重参数隔离
  3. Tsallis熵替代Shannon熵:考虑LLM的非广延性质,通过变形参数q实现对高/低熵Token的差异化处理
  4. 极高的效率:解耦遗忘过程与LLM的数十亿参数,仅需少量可训练参数即可达到SOTA效果
  5. 三基准全面验证:在实体遗忘(TOFU)、危险知识遗忘(WMDP)、版权遗忘(MUSE)三类任务上均表现优异

局限性 / 可改进方向

  1. 熵阈值固定:高/低熵的分界线(\(S_q = 1.2\))似乎是手动设定的,能否自适应学习该阈值?
  2. 子领域数量N的确定:需要预先通过聚类确定遗忘子领域数量,对未知领域分布的适应性有待探讨
  3. 评估局限:流畅度评估依赖GPT-4o打分,与人类判断不完全一致
  4. 遗忘验证深度不足:未讨论是否能抵抗针对遗忘后模型的提取攻击(jailbreak后能否恢复被遗忘知识)
  5. 仅在7B-8B模型上验证:更大规模模型(70B+)上的表现和参数隔离效果未知

与相关工作的对比

  • vs GA/GD等梯度方法:这些方法通过破坏性参数更新实现遗忘,但导致灾难性能力退化;ALTER通过参数隔离避免此问题
  • vs NPO系列:NPO使用钝化正则化,遗忘质量和效用保持均不如ALTER
  • vs RMU/ELM:这类方法通过引导向量/概念擦除实现遗忘,能降低WMDP但流畅度较差,且引入纠缠错误
  • vs 标准LoRA:标准LoRA在多领域耦合场景中刚性不足,ALTER通过非对称架构和熵引导克服此问题
  • vs HydraLoRA:ALTER创新性地将HydraLoRA的非对称架构从多任务微调领域迁移至遗忘场景

启发与关联

  1. Token粒度的知识管理思路具有普适性:高/低熵Token的分离不仅适用于遗忘,理论上可扩展到知识编辑、模型压缩等场景
  2. 非广延熵(Tsallis entropy)在NLP中的应用:为NLP提供了超越Shannon熵的新工具,尤其在处理具有长程关联的序列数据时
  3. 与模型安全对齐的关联:遗忘框架可作为对齐技术的补充,先对齐再遗忘残留的有害知识
  4. LoRA架构设计的启示:A/B矩阵的知识分离特性值得在其他场景中进一步探索和利用

评分

  • 新颖性: ⭐⭐⭐⭐ 将非对称LoRA与Token熵引导结合用于遗忘是新颖的研究方向,但各组件(AsymLoRA、熵引导、MoE路由)都有前驱工作
  • 实验充分度: ⭐⭐⭐⭐ 三个基准、多个骨干模型、消融实验和效率分析较全面,但缺少对抗攻击下的鲁棒性评估
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,从观察到方法的逻辑链完整,但部分公式表述较密集
  • 价值: ⭐⭐⭐⭐ 在LLM安全部署方面具有实际意义,参数高效且效果优异,为遗忘研究提供了新范式