ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs¶
会议: AAAI 2026
arXiv: 2603.01792v1
代码: https://github.com/MastrOrigami/ALTER.git (有)
领域: AI Safety / LLM Unlearning
关键词: 机器遗忘, 非对称LoRA, Token熵, 参数隔离, 知识解耦
一句话总结¶
提出ALTER框架,利用非对称LoRA架构结合Token级别的Tsallis熵引导,实现LLM中目标知识的精准遗忘,同时通过参数隔离机制保留模型基础能力,在TOFU、WMDP和MUSE三个基准上达到SOTA。
背景与动机¶
随着LLM规模扩大和训练数据多样化,模型不可避免地学到敏感信息、隐私数据或违法内容。GDPR等法规要求的"被遗忘权"使得LLM遗忘成为热点研究方向。然而,现有遗忘方法面临两大核心挑战:
- 知识纠缠问题:多领域连续训练导致参数空间高度耦合,遗忘某个领域知识时容易"过度遗忘",损害其他领域的能力(图1展示了语料异质性对FT/PEFT的影响以及LoRA参数空间的混乱)。
- 计算效率问题:对数十亿参数的SOTA模型进行全参数微调成本极高。
现有方法的局限性: - 基于提示/辅助模型的方法:泛化性和鲁棒性有限 - 全参数微调(GA等):虽然能实现遗忘,但代价是模型通用能力的灾难性下降(MMLU降至23-26%) - 标准LoRA:虽然参数高效,但在多领域耦合参数空间中仍难以精准隔离遗忘目标
核心问题¶
如何在多领域耦合的参数空间中,利用参数高效微调(PEFT)实现精准遗忘,同时保持模型整体性能?具体而言,需要同时解决:(1) 遗忘子任务之间的参数隔离;(2) 遗忘任务与保留任务之间的解耦;(3) Token级别的精细化遗忘(避免句子级遗忘带来的语法结构破坏)。
方法详解¶
整体框架¶
ALTER是一个两阶段的轻量级遗忘框架:
- 阶段I(Token熵捕获):通过LoRA中共享的A矩阵学习高熵Token(结构性语言元素)
- 阶段II(非对称遗忘):利用非对称LoRA架构,通过参数隔离在目标子领域中实现Token级别的遗忘
整体权重更新公式为: $\(\mathbf{W} = \mathbf{W}_0 + \Delta\mathbf{W} = \mathbf{W}_0 + \left(\mathbf{B}_r + \sum_{d=1}^{N} \omega_{f_d} \cdot \mathbf{B}_{f_d}\right)\mathbf{A}\)$
其中 \(\mathbf{A}\) 为共享矩阵(捕获任务无关的结构知识),\(\mathbf{B}_{f_d}\) 为各遗忘子领域的专家矩阵,\(\mathbf{B}_r\) 为保留专家矩阵。
关键设计¶
- 非对称LoRA参数隔离(Observation I):
借鉴HydraLoRA的发现——共享矩阵A通常捕获通用知识,而各个B矩阵适应差异性知识。ALTER将这一特性用于遗忘:将复杂的异构数据遗忘问题转化为各子领域数据集的局部优化任务。每个遗忘专家 \(\mathbf{B}_{f_d}\) 对应一个子领域 \(d\),通过聚类中心初始化;保留专家 \(\mathbf{B}_r\) 通过保留集的特征分布初始化。
- Token熵引导机制(Observation II):
论文发现Token级别的熵呈现稳健的双峰分布:高熵Token(如"however"、"therefore")主要是结构性语言元素,低熵Token包含知识密集内容(如实体名词)。这一分布在PEFT过程中保持稳定(>87%高熵Token保持不确定性,>92%低熵Token保持确定性)。基于此,ALTER用Tsallis熵替代Shannon熵进行层次化建模: $\(S_q(x_t) = \frac{1}{q-1}\left(1 - \sum_{i=1}^{V} p_{t,i}^q\right), \quad q > 0\)$ 变形参数 \(q\) 的双重控制:\(q<1\) 增强A矩阵中高熵Token的结构不变性;\(q>1\) 打破低熵Token的跨领域关联,实现定向遗忘。
- 熵感知自适应门控(MoE路由):
引入基于熵的自适应门控机制: $\(g_d(x_t) = \text{softmax}(W_g^T \cdot S_q(x_t) / \tau)\)$ 路由温度 \(\tau\) 动态调节:高熵Token(\(S_q > 1.2\))时 \(\tau = 0.8\),激活多专家增强结构鲁棒性;低熵Token(\(S_q \leq 1.2\))时 \(\tau = 0.01\),强制单专家精确路由。
- 差异化推理路径:
推理阶段根据Token熵阈值触发不同计算路径:高熵Token使用多专家融合(聚合A和top-3 \(\mathbf{B}_{f_d}\)),保持结构完整性;低熵Token激活单专家旁路(仅最高权重 \(\mathbf{B}_{i^*}\)),避免冗余计算。
损失函数 / 训练策略¶
ALTER设计了层次化级联损失,扩展为三层优化:
- 逆铰链损失 \(\mathcal{L}_{\text{IHL}}\):受经典hinge loss启发,反转优化方向,在低熵Token上抑制目标预测概率同时提升次优Token概率
- 保留损失 \(l_r\):增强核心能力
- 严格梯度隔离:每个遗忘专家 \(\mathbf{B}_{f_d}\) 仅通过对应子领域梯度更新;\(\mathbf{B}_r\) 仅通过保留梯度更新;共享矩阵 \(\mathbf{A}\) 仅通过高熵Token梯度更新
训练配置:\(\eta_B = 10^{-3}\), \(\eta_A = 10^{-5}\)(A矩阵学习率远小于B矩阵),\(\beta = \gamma = 1.0\), \(\lambda = 0.01\), batch size = 4, epoch = 3。
实验关键数据¶
| 数据集/指标 | 指标 | ALTER (Ours) | 之前最佳 | 提升/优势 |
|---|---|---|---|---|
| WMDP-Bio (Llama3-8B) ↓ | 准确率 | 24.4% | 25.7% (AsymLoRA) | 更接近随机水平(25%) |
| WMDP-Cyber (Llama3-8B) ↓ | 准确率 | 25.6% | 28.8% (AsymLoRA) | -3.2% |
| MMLU (Llama3-8B) ↑ | 准确率 | 57.8% | 57.2% (ELM) | +0.6% |
| Flu-mean (Llama3-8B) ↑ | 流畅度均值 | 3.46 | 3.07 (ELM) | +0.39 |
| Flu-var (Llama3-8B) ↓ | 流畅度方差 | 1.17 | 1.42 (LoRA/AsymLoRA) | -0.25 |
| WMDP-Bio (Zephyr-7B) ↓ | 准确率 | 24.4% | 27.1% (AsymLoRA) | -2.7% |
| MMLU (Zephyr-7B) ↑ | 准确率 | 56.4% | 57.8% (RMU/NPO_KL) | 略低但遗忘更彻底 |
| HarryPotter ASG ↓ | 相似度差距 | 1.3 | 1.9 (A-LoRA) | -0.6 |
| HarryPotter MMLU ↑ | 准确率 | 44.6% | 44.6% (ELM) | 持平 |
| HarryPotter Flu ↑ | 流畅度 | 3.3 | 3.1 (KL) | +0.2 |
核心优势:GA/RL等方法虽能降低WMDP到~25%,但MMLU灾难性下降至23-26%;ALTER在实现同等遗忘效果的同时保持>90%模型效用(基线仅47.8-83.6%)。
消融实验要点¶
- 持续遗忘(Sequential Unlearning):在TOFU上从1%到10%逐步扩大遗忘集,ALTER保持接近基础模型水平的稳定性能,而基线方法出现渐进退化(GA/GD严重效用损失,NPO中等退化)
- 时间效率:ALTER利用AsymLoRA框架减少86.1%-87.1%的训练时间,AsymLoRA为单位时间1.0×,ALTER仅需1.25×即可进一步提升性能
- LoRA rank:所有变体统一使用rank=8平衡效果与性能
亮点¶
- Token级别精细化遗忘:首次提出基于Token熵的知识定位方法,区分结构性Token(高熵)和知识密集Token(低熵),实现外科手术式知识移除
- 非对称架构的创新应用:将HydraLoRA的A/B矩阵分离特性巧妙应用于遗忘场景,建立遗忘子任务间和遗忘-保留间的双重参数隔离
- Tsallis熵替代Shannon熵:考虑LLM的非广延性质,通过变形参数q实现对高/低熵Token的差异化处理
- 极高的效率:解耦遗忘过程与LLM的数十亿参数,仅需少量可训练参数即可达到SOTA效果
- 三基准全面验证:在实体遗忘(TOFU)、危险知识遗忘(WMDP)、版权遗忘(MUSE)三类任务上均表现优异
局限性 / 可改进方向¶
- 熵阈值固定:高/低熵的分界线(\(S_q = 1.2\))似乎是手动设定的,能否自适应学习该阈值?
- 子领域数量N的确定:需要预先通过聚类确定遗忘子领域数量,对未知领域分布的适应性有待探讨
- 评估局限:流畅度评估依赖GPT-4o打分,与人类判断不完全一致
- 遗忘验证深度不足:未讨论是否能抵抗针对遗忘后模型的提取攻击(jailbreak后能否恢复被遗忘知识)
- 仅在7B-8B模型上验证:更大规模模型(70B+)上的表现和参数隔离效果未知
与相关工作的对比¶
- vs GA/GD等梯度方法:这些方法通过破坏性参数更新实现遗忘,但导致灾难性能力退化;ALTER通过参数隔离避免此问题
- vs NPO系列:NPO使用钝化正则化,遗忘质量和效用保持均不如ALTER
- vs RMU/ELM:这类方法通过引导向量/概念擦除实现遗忘,能降低WMDP但流畅度较差,且引入纠缠错误
- vs 标准LoRA:标准LoRA在多领域耦合场景中刚性不足,ALTER通过非对称架构和熵引导克服此问题
- vs HydraLoRA:ALTER创新性地将HydraLoRA的非对称架构从多任务微调领域迁移至遗忘场景
启发与关联¶
- Token粒度的知识管理思路具有普适性:高/低熵Token的分离不仅适用于遗忘,理论上可扩展到知识编辑、模型压缩等场景
- 非广延熵(Tsallis entropy)在NLP中的应用:为NLP提供了超越Shannon熵的新工具,尤其在处理具有长程关联的序列数据时
- 与模型安全对齐的关联:遗忘框架可作为对齐技术的补充,先对齐再遗忘残留的有害知识
- LoRA架构设计的启示:A/B矩阵的知识分离特性值得在其他场景中进一步探索和利用
评分¶
- 新颖性: ⭐⭐⭐⭐ 将非对称LoRA与Token熵引导结合用于遗忘是新颖的研究方向,但各组件(AsymLoRA、熵引导、MoE路由)都有前驱工作
- 实验充分度: ⭐⭐⭐⭐ 三个基准、多个骨干模型、消融实验和效率分析较全面,但缺少对抗攻击下的鲁棒性评估
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,从观察到方法的逻辑链完整,但部分公式表述较密集
- 价值: ⭐⭐⭐⭐ 在LLM安全部署方面具有实际意义,参数高效且效果优异,为遗忘研究提供了新范式