跳转至

LLM-CAS: Dynamic Neuron Perturbation for Real-Time Hallucination Correction

会议: AAAI 2026
arXiv: 2512.18623
代码: 即将开源
领域: LLM安全 / 幻觉缓解
关键词: 动态神经元扰动, 层次强化学习, 推理时干预, 因果追踪, 自适应掩码

一句话总结

LLM-CAS 首次将 LLM 实时幻觉纠正建模为层次强化学习(HRL)问题,训练 RL Agent 在推理时动态选择最优的神经元扰动策略(高层选择功能网络类别,低层选择扰动类型和幅度),结合自适应掩码+因果追踪精确定位目标神经元,在 StoryCloze 上提升 10.98%,超越 ITI/CAA/SADI 等静态/动态基线。

研究背景与动机

  1. 领域现状:LLM 幻觉是部署的核心障碍。现有方案分三类:SFT/RLHF(数据密集+计算昂贵+灾难性遗忘风险)、静态模型编辑(locate-then-edit,一次性修改参数 \(W_{\text{edited}} = W + \Delta W\),但永久修改易损害无关知识)、推理时干预(ITI/CAA 加固定向量,但跨输入静态)。
  2. 现有痛点:(1) 静态模型编辑在多次编辑后导致灾难性遗忘和知识冲突;(2) ITI/CAA 的导向向量是预计算的固定值,对不同输入不自适应;(3) SADI 虽然动态调整导向向量但依赖启发式规则,缺乏原则性优化。
  3. 核心矛盾:幻觉是上下文相关的——同一模型对不同输入可能产生不同类型的幻觉,需要不同的纠正策略。但现有方法要么"一刀切"(静态导向向量),要么依赖人为规则(SADI),缺乏学习到的、自适应的纠正策略。
  4. 本文要解决什么? 如何学习一个原则性的、上下文感知的动态神经元扰动策略来实时纠正幻觉?
  5. 切入角度:将问题建模为 HRL——高层策略选择"在哪个功能网络中干预",低层策略选择"用什么类型和幅度的扰动"。扰动是临时的,不永久修改模型权重。
  6. 核心 idea 一句话:用层次 RL 训练 Agent 学习在推理时动态选择上下文最优的神经元临时扰动,纠正幻觉。

方法详解

整体框架

三阶段流水线:Stage 1(识别 bad cases)→ Stage 2(训练 HRL Agent)→ Stage 3(推理时应用)。输入 bad case \(x\) → 状态编码(输入嵌入+基线分数+历史最优分数+步数)→ 高层 PPO Agent 选择功能网络类别 \(C_k\) → 低层 PPO Agent 选择扰动类型+幅度 → 自适应掩码定位具体神经元 → 临时扰动激活值 → 评估纠正输出 → 反馈奖励更新策略。

关键设计

  1. 层次强化学习架构:
  2. 做什么:将巨大的神经元扰动空间分解为可管理的两层决策
  3. 高层策略 \(\pi_H(a_H|s)\):从功能网络类别集合 \(A_H = \{C_1, ..., C_{N_H}\}\) 中选择宏观干预目标(如语言网络、知识网络等)
  4. 低层策略 \(\pi_L(a_L|s, a_H)\):给定高层选择,决定扰动类型 \(a_L^{\text{type}} \in \{\text{noise, zero, scale, ...}\}\) 和幅度 \(a_L^{\text{mag}} \in \{m_1, ..., m_{N_M}\}\)
  5. 设计动机:直接在全部神经元上搜索最优扰动是不可行的,层次分解使搜索空间可管理且语义化

  6. 自适应掩码 + 因果追踪:

  7. 做什么:精确定位哪些神经元需要扰动
  8. 两阶段掩码:(a) 通用稀疏掩码 \(M_{k,l}(i; \theta_{k,l})\) ——可学习的门控参数,通过 L1+L0 正则化强制稀疏;(b) 输入特定适配 ——使用 Integrated Gradients 计算因果追踪的归因分数 \(\text{Attr}_l(x, i)\),与通用掩码逐元素相乘得到最终操作掩码 \(M_{op,k,l}\)
  9. 设计动机:通用掩码学习"哪些神经元通常与幻觉相关",因果追踪适配"当前输入的关键神经元",两者结合实现精准+高效的定位

  10. 多维度奖励函数:

  11. 做什么:同时优化幻觉减少、相关性保持和流畅性
  12. 奖励:\(R_t = w_h \cdot \Delta\text{Score}_{h,t} + w_r \cdot \Delta\text{Score}_{r,t} + w_f \cdot \Delta\text{Score}_{f,t} + R_{\text{exp},t}\)
  13. 使用分数变化量而非绝对值——减少 LLM-as-Judge 评估偏差的影响
  14. 设计动机:纯优化幻觉减少可能损害流畅性和相关性,多目标奖励确保纠正后的输出保持高质量

训练策略

PPO 优化两级策略网络。掩码参数 \(\theta_{\text{mask}}\) 和 RL 策略独立优化。扰动是临时的——只在当前推理时应用,不修改模型权重。

实验关键数据

主实验 — 多选题任务(Llama2-7B-Chat)

方法 StoryCloze SST-2 BoolQ Winogrande Avg
Baseline 65.06 88.63 70.52 50.91 68.78
ITI (静态) 68.50 91.38 74.10 52.80 71.70
CAA (静态) 74.65 91.16 74.98 52.64 73.36
SADI (动态) 67.57 88.69 70.40 51.93 69.65
LLM-CAS 76.04 91.30 74.47 52.90 73.68

消融实验

配置 SST-2 BoolQ Winogrande StoryCloze Avg
Full 91.30 74.47 52.90 76.04 73.68
Random mask 86.73 67.10 51.32 70.20 68.84
Random action 82.45 64.32 49.15 66.87 65.70
Both random 80.18 62.05 47.98 63.41 63.41

关键发现

  • LLM-CAS 在 StoryCloze 上提升 10.98%(65.06→76.04),是所有方法中最大的提升——叙事连贯性任务最受益
  • SADI(启发式动态干预)甚至不如静态 ITI/CAA——说明没有学习到的优化,简单的动态调整可能适得其反
  • 消融显示 PPO 和动态掩码缺一不可——去掉 PPO 后平均下降 7.98%,去掉掩码下降 4.84%,都去掉下降 10.27%
  • 跨模型验证有效:Mistral-7B 上 StoryCloze 从 21.51→34.41(+12.9),Gemma-7B 上从 60.95→69.76(+8.81)
  • 推理时间开销可接受:PPO 决策时间远小于模型前向传播时间

亮点与洞察

  • HRL 建模的思路新颖:首次将幻觉纠正建模为层次 RL——高层选"在哪干预"、低层选"怎么干预",比启发式规则更原则化
  • 临时扰动 vs 永久编辑:扰动只在当前推理时生效,完全不修改模型权重——零灾难性遗忘风险,这是对静态模型编辑的根本性改进
  • 通用掩码+因果追踪的两阶段精准定位:学一个通用模板+实时因果适配——高效且精准

局限性 / 可改进方向

  • 仅在 7B 模型上验证,更大规模模型的有效性待确认
  • RL Agent 的训练仍需要一定的计算资源和"bad cases"数据
  • 开放生成任务的改进幅度(TriviaQA +2.71)不如多选题(StoryCloze +10.98),可能因为开放生成的奖励信号更难设计
  • LLM-as-Judge 的评估偏差可能影响训练信号质量
  • 功能网络类别的定义依赖先验知识,可以改为自动发现

相关工作与启发

  • vs ITI/CAA: 静态导向向量 vs 学习到的动态策略——LLM-CAS 的自适应能力更强
  • vs SADI: SADI 用启发式生成动态向量但效果反而比静态方法差,LLM-CAS 用 HRL 学习到更好的策略
  • vs PING(本批笔记中的Agentic安全论文): PING 在响应层面干预(前缀注入),LLM-CAS 在神经元层面干预——互补的两个层次
  • 启发:MUG(反事实测试)检测幻觉 Agent + LLM-CAS 纠正幻觉的神经元 = 检测+纠正的完整流水线

评分

  • 新颖性: ⭐⭐⭐⭐⭐ HRL+动态神经元扰动+因果追踪的组合非常新颖
  • 实验充分度: ⭐⭐⭐⭐ 多选+生成任务、3个模型、消融完整,但缺少更大模型验证
  • 写作质量: ⭐⭐⭐⭐ 形式化严谨,但部分公式略冗长
  • 价值: ⭐⭐⭐⭐⭐ 将幻觉纠正从启发式推向学习化的里程碑式工作