Fine-tuning Done Right in Model Editing¶

会议: ICLR 2026
arXiv: 2509.22072
代码: https://github.com/ICT-STAR/LocFT
领域: NLP理解
关键词: Model Editing, Fine-tuning, 知识编辑, 灾难性遗忘, 局部化微调

一句话总结¶

揭示模型编辑中 fine-tuning 被低估的根因是错误的训练 pipeline（深度优先逐样本优化），修正为标准的广度优先 mini-batch 训练后，配合局部化参数调优形成 LocFT-BF，首次支持 10 万次连续编辑和 72B 模型规模。

领域现状：模型编辑旨在高效修改 LLM 中的特定事实知识而不重训练，主流方法包括参数扩展（GRACE）、元学习（MEND）和定位-编辑（ROME/MEMIT）。Fine-tuning 在该领域一直被视为弱 baseline，因"过拟合和灾难性遗忘"而被否定。
现有痛点：(a) 定位-编辑方法需要预计算矩阵，扩展性差；(b) 元学习方法需额外标注数据和辅助网络；(c) 参数扩展方法修改架构；(d) 所有方法在大规模连续编辑（>10K）下性能显著下降。
核心矛盾：Fine-tuning 是 LLM 适配最成功的方法，却在模型编辑中被判定为"不行"——这个矛盾值得深挖。
本文要解决什么？ Fine-tuning 在模型编辑中真的不行吗？其失败是方法本身还是实现方式的问题？
切入角度：审查现有代码库发现，模型编辑中的 fine-tuning 使用了非标准训练流程：逐样本优化到收敛再处理下一个（深度优先），而非标准的多 epoch mini-batch 训练（广度优先）。
核心idea一句话：模型编辑中 fine-tuning 的"失败"是实现 bug 而非方法局限——修正训练 pipeline + 局部化调参即可超越所有 SOTA。

LocFT-BF = 标准广度优先 mini-batch 训练 + 局部化参数更新（仅调后几层的 down/up projection）。输入是编辑请求序列 \((s, r, o \to o')\)，输出是更新后的模型参数 \(\theta^*\)。

Pipeline 修正：深度优先→广度优先:
做什么：将逐样本单遍训练（DF）改为多 epoch 遍历整个编辑集（BF）
核心思路：DF 的问题是后面的编辑覆盖前面的（灾难性遗忘的根源是单遍处理），BF 通过多次遍历让模型平衡学习所有编辑
设计动机：这是最关键的发现——仅此一步改变（甚至 batch size=1 不变）就带来巨大提升
更新粒度修正：逐样本→Mini-batch:
做什么：将 batch size 从 1 提升到标准 mini-batch（如 64）
核心思路：逐样本梯度方差大，容易破坏模型通用能力；mini-batch 聚合梯度更稳定
设计动机：在 BF pipeline 上进一步稳定训练，大幅减少通用能力退化
局部化调参位置选择:
做什么：系统性地评估不同层和模块（attention/MLP 的各投影矩阵）的编辑效果
核心思路：发现调整后几层的 down-projection 或 up-projection 矩阵通常最优——编辑成功率接近 100% 且保持通用能力
设计动机：现有方法（如 FT-M）继承了 ROME 的调参位置（中间层 MLP），但这些位置并非为 fine-tuning 优化的。系统搜索后发现后层更适合知识编辑

标准交叉熵损失，仅在编辑目标 token 上计算。关键实现细节： - 多 epoch 广度优先遍历 - Mini-batch 梯度聚合 - 仅更新后几层的 MLP down/up projection - 不需要额外的正则化、辅助数据或架构修改

LLaMA3-8B，1000 次 ZsRE 编辑:

方法	Reliability	Generalization	Capability
ROME	中等	中等	下降
MEMIT	中等	中等	下降
GRACE	中等	低	保持
FT-M (DF, 原始)	75.3	67.2	28.3
FT-M (BF, batch=1)	大幅提升	大幅提升	改善
LocFT-BF	接近100%	接近100%	保持

平均超越最佳 baseline 33.72% 编辑成功率。

指出了领域内长期存在的实现错误：这类"大家都这样做所以是对的"的暗默假设被打破，提醒社区重新审视 baseline 的公平性。类似的"baseline 被低估"现象可能存在于其他领域。
简洁即力量：没有任何花哨组件，仅通过"正确使用 fine-tuning"就超越所有复杂方法。这对模型编辑领域的研究范式是重要校正。
10万次编辑+72B模型的新评估标准推动了领域基准升级，更接近实际应用需求。