ALTER: Asymmetric LoRA for Token-Entropy-Guided Unlearning of LLMs¶

会议: AAAI 2026
arXiv: 2603.01792v1
代码: https://github.com/MastrOrigami/ALTER.git (有)
领域: AI Safety / LLM Unlearning
关键词: 机器遗忘, 非对称LoRA, Token熵, 参数隔离, 知识解耦

一句话总结¶

提出ALTER框架，利用非对称LoRA架构结合Token级别的Tsallis熵引导，实现LLM中目标知识的精准遗忘，同时通过参数隔离机制保留模型基础能力，在TOFU、WMDP和MUSE三个基准上达到SOTA。

背景与动机¶

随着LLM规模扩大和训练数据多样化，模型不可避免地学到敏感信息、隐私数据或违法内容。GDPR等法规要求的"被遗忘权"使得LLM遗忘成为热点研究方向。然而，现有遗忘方法面临两大核心挑战：

知识纠缠问题：多领域连续训练导致参数空间高度耦合，遗忘某个领域知识时容易"过度遗忘"，损害其他领域的能力（图1展示了语料异质性对FT/PEFT的影响以及LoRA参数空间的混乱）。
计算效率问题：对数十亿参数的SOTA模型进行全参数微调成本极高。

现有方法的局限性： - 基于提示/辅助模型的方法：泛化性和鲁棒性有限 - 全参数微调（GA等）：虽然能实现遗忘，但代价是模型通用能力的灾难性下降（MMLU降至23-26%） - 标准LoRA：虽然参数高效，但在多领域耦合参数空间中仍难以精准隔离遗忘目标

核心问题¶

如何在多领域耦合的参数空间中，利用参数高效微调（PEFT）实现精准遗忘，同时保持模型整体性能？具体而言，需要同时解决：(1) 遗忘子任务之间的参数隔离；(2) 遗忘任务与保留任务之间的解耦；(3) Token级别的精细化遗忘（避免句子级遗忘带来的语法结构破坏）。

方法详解¶

整体框架¶

ALTER是一个两阶段的轻量级遗忘框架：

阶段I（Token熵捕获）：通过LoRA中共享的A矩阵学习高熵Token（结构性语言元素）
阶段II（非对称遗忘）：利用非对称LoRA架构，通过参数隔离在目标子领域中实现Token级别的遗忘

整体权重更新公式为： $$\mathbf{W} = \mathbf{W}_0 + \Delta\mathbf{W} = \mathbf{W}_0 + \left(\mathbf{B}_r + \sum_{d=1}^{N} \omega_{f_d} \cdot \mathbf{B}_{f_d}\right)\mathbf{A}$$

其中 $\mathbf{A}$ 为共享矩阵（捕获任务无关的结构知识），$\mathbf{B}_{f_d}$ 为各遗忘子领域的专家矩阵，$\mathbf{B}_r$ 为保留专家矩阵。

关键设计¶

非对称LoRA参数隔离（Observation I）：

借鉴HydraLoRA的发现——共享矩阵A通常捕获通用知识，而各个B矩阵适应差异性知识。ALTER将这一特性用于遗忘：将复杂的异构数据遗忘问题转化为各子领域数据集的局部优化任务。每个遗忘专家 $\mathbf{B}_{f_d}$ 对应一个子领域 $d$，通过聚类中心初始化；保留专家 $\mathbf{B}_r$ 通过保留集的特征分布初始化。

Token熵引导机制（Observation II）：

论文发现Token级别的熵呈现稳健的双峰分布：高熵Token（如"however"、"therefore"）主要是结构性语言元素，低熵Token包含知识密集内容（如实体名词）。这一分布在PEFT过程中保持稳定（>87%高熵Token保持不确定性，>92%低熵Token保持确定性）。基于此，ALTER用Tsallis熵替代Shannon熵进行层次化建模： $$S_q(x_t) = \frac{1}{q-1}\left(1 - \sum_{i=1}^{V} p_{t,i}^q\right), \quad q > 0$$ 变形参数 $q$ 的双重控制：$q<1$ 增强A矩阵中高熵Token的结构不变性；$q>1$ 打破低熵Token的跨领域关联，实现定向遗忘。

熵感知自适应门控（MoE路由）：

引入基于熵的自适应门控机制： $$g_d(x_t) = \text{softmax}(W_g^T \cdot S_q(x_t) / \tau)$$ 路由温度 $\tau$ 动态调节：高熵Token（$S_q > 1.2$）时 $\tau = 0.8$，激活多专家增强结构鲁棒性；低熵Token（$S_q \leq 1.2$）时 $\tau = 0.01$，强制单专家精确路由。

差异化推理路径：

推理阶段根据Token熵阈值触发不同计算路径：高熵Token使用多专家融合（聚合A和top-3 $\mathbf{B}_{f_d}$），保持结构完整性；低熵Token激活单专家旁路（仅最高权重 $\mathbf{B}_{i^*}$），避免冗余计算。

损失函数 / 训练策略¶

ALTER设计了层次化级联损失，扩展为三层优化：

\[\min_{\omega_{f_d}, \omega_r} \beta \sum_{d=1}^{N} \mathbb{E}_{(q,a)\sim\mathcal{D}_{f_d}}[\mathcal{L}_{\text{IHL}}] + \gamma \mathbb{E}_{(q,a)\sim\mathcal{D}_r}[l_r]\]

逆铰链损失 $\mathcal{L}_{\text{IHL}}$：受经典hinge loss启发，反转优化方向，在低熵Token上抑制目标预测概率同时提升次优Token概率
保留损失 $l_r$：增强核心能力
严格梯度隔离：每个遗忘专家 $\mathbf{B}_{f_d}$ 仅通过对应子领域梯度更新；$\mathbf{B}_r$ 仅通过保留梯度更新；共享矩阵 $\mathbf{A}$ 仅通过高熵Token梯度更新

训练配置：$\eta_B = 10^{-3}$, $\eta_A = 10^{-5}$（A矩阵学习率远小于B矩阵），$\beta = \gamma = 1.0$, $\lambda = 0.01$, batch size = 4, epoch = 3。

实验关键数据¶

数据集/指标	指标	ALTER (Ours)	之前最佳	提升/优势
WMDP-Bio (Llama3-8B) ↓	准确率	24.4%	25.7% (AsymLoRA)	更接近随机水平(25%)
WMDP-Cyber (Llama3-8B) ↓	准确率	25.6%	28.8% (AsymLoRA)	-3.2%
MMLU (Llama3-8B) ↑	准确率	57.8%	57.2% (ELM)	+0.6%
Flu-mean (Llama3-8B) ↑	流畅度均值	3.46	3.07 (ELM)	+0.39
Flu-var (Llama3-8B) ↓	流畅度方差	1.17	1.42 (LoRA/AsymLoRA)	-0.25
WMDP-Bio (Zephyr-7B) ↓	准确率	24.4%	27.1% (AsymLoRA)	-2.7%
MMLU (Zephyr-7B) ↑	准确率	56.4%	57.8% (RMU/NPO_KL)	略低但遗忘更彻底
HarryPotter ASG ↓	相似度差距	1.3	1.9 (A-LoRA)	-0.6
HarryPotter MMLU ↑	准确率	44.6%	44.6% (ELM)	持平
HarryPotter Flu ↑	流畅度	3.3	3.1 (KL)	+0.2

核心优势：GA/RL等方法虽能降低WMDP到~25%，但MMLU灾难性下降至23-26%；ALTER在实现同等遗忘效果的同时保持>90%模型效用（基线仅47.8-83.6%）。

消融实验要点¶

持续遗忘（Sequential Unlearning）：在TOFU上从1%到10%逐步扩大遗忘集，ALTER保持接近基础模型水平的稳定性能，而基线方法出现渐进退化（GA/GD严重效用损失，NPO中等退化）
时间效率：ALTER利用AsymLoRA框架减少86.1%-87.1%的训练时间，AsymLoRA为单位时间1.0×，ALTER仅需1.25×即可进一步提升性能
LoRA rank：所有变体统一使用rank=8平衡效果与性能

亮点¶

Token级别精细化遗忘：首次提出基于Token熵的知识定位方法，区分结构性Token（高熵）和知识密集Token（低熵），实现外科手术式知识移除
非对称架构的创新应用：将HydraLoRA的A/B矩阵分离特性巧妙应用于遗忘场景，建立遗忘子任务间和遗忘-保留间的双重参数隔离
Tsallis熵替代Shannon熵：考虑LLM的非广延性质，通过变形参数q实现对高/低熵Token的差异化处理
极高的效率：解耦遗忘过程与LLM的数十亿参数，仅需少量可训练参数即可达到SOTA效果
三基准全面验证：在实体遗忘(TOFU)、危险知识遗忘(WMDP)、版权遗忘(MUSE)三类任务上均表现优异

局限性 / 可改进方向¶

熵阈值固定：高/低熵的分界线（$S_q = 1.2$）似乎是手动设定的，能否自适应学习该阈值？
子领域数量N的确定：需要预先通过聚类确定遗忘子领域数量，对未知领域分布的适应性有待探讨
评估局限：流畅度评估依赖GPT-4o打分，与人类判断不完全一致
遗忘验证深度不足：未讨论是否能抵抗针对遗忘后模型的提取攻击（jailbreak后能否恢复被遗忘知识）
仅在7B-8B模型上验证：更大规模模型（70B+）上的表现和参数隔离效果未知

与相关工作的对比¶

vs GA/GD等梯度方法：这些方法通过破坏性参数更新实现遗忘，但导致灾难性能力退化；ALTER通过参数隔离避免此问题
vs NPO系列：NPO使用钝化正则化，遗忘质量和效用保持均不如ALTER
vs RMU/ELM：这类方法通过引导向量/概念擦除实现遗忘，能降低WMDP但流畅度较差，且引入纠缠错误
vs 标准LoRA：标准LoRA在多领域耦合场景中刚性不足，ALTER通过非对称架构和熵引导克服此问题
vs HydraLoRA：ALTER创新性地将HydraLoRA的非对称架构从多任务微调领域迁移至遗忘场景

启发与关联¶

Token粒度的知识管理思路具有普适性：高/低熵Token的分离不仅适用于遗忘，理论上可扩展到知识编辑、模型压缩等场景
非广延熵（Tsallis entropy）在NLP中的应用：为NLP提供了超越Shannon熵的新工具，尤其在处理具有长程关联的序列数据时
与模型安全对齐的关联：遗忘框架可作为对齐技术的补充，先对齐再遗忘残留的有害知识
LoRA架构设计的启示：A/B矩阵的知识分离特性值得在其他场景中进一步探索和利用

评分¶

新颖性: ⭐⭐⭐⭐ 将非对称LoRA与Token熵引导结合用于遗忘是新颖的研究方向，但各组件（AsymLoRA、熵引导、MoE路由）都有前驱工作
实验充分度: ⭐⭐⭐⭐ 三个基准、多个骨干模型、消融实验和效率分析较全面，但缺少对抗攻击下的鲁棒性评估
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，从观察到方法的逻辑链完整，但部分公式表述较密集
价值: ⭐⭐⭐⭐ 在LLM安全部署方面具有实际意义，参数高效且效果优异，为遗忘研究提供了新范式