跳转至

Reforming the Mechanism: Editing Reasoning Patterns in LLMs with Circuit Reshaping

日期: 2026-03-06
arXiv: 2603.06923
代码: GitHub
领域: 自监督学习
关键词: Reasoning Editing, Neural Circuits, Model Editing, Contrastive Learning, Propositional Logic

一句话总结

提出 Reasoning Editing 范式和 REdit 框架,通过发现 Circuit-Interference Law(电路重叠度与编辑干扰成正比),主动重塑 LLM 内部神经电路来解码/注入推理模式,在通用性和局部性之间取得优越平衡,Generality 提升最高 16.1%,Locality 提升最高 12.2%。

研究背景与动机

  1. 领域现状: LLM 在推理任务上取得了巨大进步,但仍常产生错误推理(如 \(A \to B\) 推出 \(\neg B \to \neg A\) 是正确的,但错误推出 \(\neg B \to A\)),SFT/RLHF 将推理视为整体能力进行全局优化,既昂贵又不精准。
  2. 现有痛点: 全局训练无法区分模型已掌握和未掌握的推理模式,导致资源浪费和纠错效率低;基于自验证的方法依赖模型自身可能不正确的推理能力。
  3. 核心矛盾: 推理编辑面临 通用性-局部性 (Generality-Locality) 权衡——编辑一个推理模式需要在所有该模式的实例上泛化(通用性),同时不影响其他推理模式(局部性),两者此消彼长。
  4. 切入角度: 从神经电路(neural circuits)层面理解推理模式的内部机制,通过主动重塑电路来调控编辑干扰。
  5. 核心idea一句话: 发现 Circuit-Interference Law 后,通过对比学习重塑电路使同模式电路对齐、异模式电路分离,再用轻量 LoRA 编辑即可同时获得通用性和局部性。

方法详解

整体框架

REdit 分两阶段:(1) 电路重塑阶段:通过对比元学习重新组织 LLM 内部的推理电路结构;(2) 编辑阶段:在重塑后的模型上用 LoRA 进行目标推理模式的编辑。

关键设计

  1. Circuit-Interference Law 的发现:
    • 四步验证流程:
    • (1) Edge Attribution Patching (EAP) 提取每个推理模式的电路 \(\mathcal{C}_\pi^{(\tau)}\)
    • (2) 计算电路距离(Jaccard / Edit / Optimal Transport)
    • (3) 单模式编辑后测量对其他模式的干扰 \(\Delta_{i \to j}\)
    • (4) 发现 \(\Delta_{i \to j} \approx \alpha + \beta \cdot d(i,j)\)\(\beta < 0\)(负相关)
  2. 核心结论:电路越相似的推理模式,编辑干扰越大;电路越不同,编辑越局部

  3. Contrastive Circuit Reshaping(对比电路重塑):

    • 对 EAP 归因权重 \(w_\pi\) 做 L2 归一化得 \(\tilde{w}_\pi\)
    • InfoNCE 损失:同模式实例作正样本,异模式实例作负样本
    • \(\mathcal{L}_{\mathrm{ctr}} = -\sum_i \log \frac{\exp(\langle \tilde{w}_i, \tilde{w}_{i^+} \rangle / \tau)}{\exp(\langle \tilde{w}_i, \tilde{w}_{i^+} \rangle / \tau) + \sum_{j \in \mathcal{N}(i)} \exp(\langle \tilde{w}_i, \tilde{w}_j \rangle / \tau)}\)
    • 效果:同模式电路对齐(提升通用性),异模式电路分离(保护局部性)
  4. Meta-Contrastive Learning(元对比学习):

    • Reptile 风格的元学习:采样对比任务 → 多步内更新 → 外层朝任务适配方向平均移动
    • 内层:\(\theta_i^{t+1} = \theta_i^t - \alpha \nabla_\theta \mathcal{L}_{\text{ctr}}^{(i)}(\theta_i^t)\)
    • 外层:\(\theta \leftarrow \theta + \eta \cdot \frac{1}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} (\phi_i - \theta)\)
    • 增强对未见推理模式的迁移能力
  5. Dual-Level Protection(双层保护):

    • 预测分布保护:KL 散度约束保持正确推理的输出分布不变
    • \(\mathcal{L}_{\mathrm{pred}} = \mathbb{E}_{(\mathcal{P},\mathcal{G}) \in \mathcal{C}} \mathrm{KL}(f_{\theta^{\text{ref}}} \| f_\theta)\)
  6. 零空间保护:内层梯度投影到任务损失梯度的近似零空间
    • \(P^{(i,t)} = I - \rho \Pi_{g_{i,t}}\),限制更新方向不损害当前任务性能

损失函数 / 训练策略

  • 电路重塑阶段:InfoNCE + KL 正则 + 零空间投影
  • 编辑阶段:标准 LoRA 微调 + 交叉熵损失
  • 骨干模型:Qwen-2.5-3B-Instruct

实验关键数据

主实验(ContextHub 命题逻辑)

数据集 指标 Raw BIMT LoRA ROME AlphaEdit REdit
Level 1 Generality 60.7 72.2 63.8 67.8 67.9 74.1
Level 1 Locality - 61.5 84.9 89.8 87.0 94.3
Level 2 Generality 53.2 63.6 58.4 61.3 58.8 64.8
Level 2 Locality - 59.4 91.5 93.1 93.3 94.3
Level 3 Generality 45.1 52.6 50.1 51.5 54.2 55.0
Level 3 Locality - 52.3 92.3 94.6 92.2 94.4

消融实验

设置 Level 1 Gen Level 1 Loc Level 3 Gen Level 3 Loc
w/o MCL 72.9 90.7 53.8 93.7
w/o NSP 73.3 89.5 50.9 92.8
w/o PDP 73.4 90.1 51.8 92.8
Full REdit 74.1 94.3 55.0 94.4

关键发现

  • REdit 在三个难度级别上一致超越所有基线,通用性最高提升 16.1%(vs. LoRA on Level 1),局部性最高提升 12.2%
  • BIMT 通用性强但局部性差(破坏内部机制);ROME/AlphaEdit 局部性好但通用性受限
  • 电路重塑后同模式/异模式电路的聚类分离度显著提升(Silhouette score 改善)
  • 仅用 20% 推理模式做重塑,效果也能迁移到未见模式(元学习有效)
  • 在 TemplateGSM 数学任务上也一致优于基线,证明跨领域泛化潜力

亮点与洞察

  • Circuit-Interference Law 是有价值的发现:首次系统建立了神经电路重叠与编辑干扰的定量关系
  • "先重塑电路、再编辑推理"的两阶段范式是全新思路,从被动分析电路转向主动塑造电路
  • 双层保护机制(预测级 + 参数级)的设计全面而严谨
  • 形式化的 Reasoning Editing 问题定义(Edit Success + Generality + Locality)为后续研究建立了评估框架

局限性 / 可改进方向

  • 目前仅在命题逻辑和简单数学上验证,更复杂的推理(多跳、因果)尚未探索
  • EAP 电路提取的计算成本较高,大规模应用需要更高效的电路发现方法
  • Qwen-2.5-3B 是中等规模模型,对更大模型(70B+)的适用性待验证
  • 元对比学习的超参数(内层步数、温度)对结果的敏感性未充分分析

相关工作与启发

  • 从知识编辑(ROME、MEMIT)扩展到推理编辑是自然但重要的推进
  • Neural Circuit 发现(EAP、ACDC)方法被创造性地用于指导编辑策略
  • 对比学习 + 元学习的组合可考虑推广到其他需要"模块化编辑"的场景

评分

  • ⭐⭐⭐⭐⭐ 创新性:Reasoning Editing 范式和 Circuit-Interference Law 均为首创,理论洞察深刻
  • ⭐⭐⭐⭐ 实验充分性:三个难度级别 + 消融 + 电路可视化 + 迁移性分析 + 跨领域验证
  • ⭐⭐⭐ 实用性:目前限于命题逻辑等结构化推理,距离实际应用还有距离
  • ⭐⭐⭐⭐⭐ 理论深度:对电路干扰的系统研究和对比重塑的理论动机充分,是 mechanistic interpretability 的重要进展