LLM-CAS: Dynamic Neuron Perturbation for Real-Time Hallucination Correction¶
会议: AAAI 2026
arXiv: 2512.18623
代码: 即将开源
领域: LLM安全 / 幻觉缓解
关键词: 动态神经元扰动, 层次强化学习, 推理时干预, 因果追踪, 自适应掩码
一句话总结¶
LLM-CAS 首次将 LLM 实时幻觉纠正建模为层次强化学习(HRL)问题,训练 RL Agent 在推理时动态选择最优的神经元扰动策略(高层选择功能网络类别,低层选择扰动类型和幅度),结合自适应掩码+因果追踪精确定位目标神经元,在 StoryCloze 上提升 10.98%,超越 ITI/CAA/SADI 等静态/动态基线。
研究背景与动机¶
- 领域现状:LLM 幻觉是部署的核心障碍。现有方案分三类:SFT/RLHF(数据密集+计算昂贵+灾难性遗忘风险)、静态模型编辑(locate-then-edit,一次性修改参数 \(W_{\text{edited}} = W + \Delta W\),但永久修改易损害无关知识)、推理时干预(ITI/CAA 加固定向量,但跨输入静态)。
- 现有痛点:(1) 静态模型编辑在多次编辑后导致灾难性遗忘和知识冲突;(2) ITI/CAA 的导向向量是预计算的固定值,对不同输入不自适应;(3) SADI 虽然动态调整导向向量但依赖启发式规则,缺乏原则性优化。
- 核心矛盾:幻觉是上下文相关的——同一模型对不同输入可能产生不同类型的幻觉,需要不同的纠正策略。但现有方法要么"一刀切"(静态导向向量),要么依赖人为规则(SADI),缺乏学习到的、自适应的纠正策略。
- 本文要解决什么? 如何学习一个原则性的、上下文感知的动态神经元扰动策略来实时纠正幻觉?
- 切入角度:将问题建模为 HRL——高层策略选择"在哪个功能网络中干预",低层策略选择"用什么类型和幅度的扰动"。扰动是临时的,不永久修改模型权重。
- 核心 idea 一句话:用层次 RL 训练 Agent 学习在推理时动态选择上下文最优的神经元临时扰动,纠正幻觉。
方法详解¶
整体框架¶
三阶段流水线:Stage 1(识别 bad cases)→ Stage 2(训练 HRL Agent)→ Stage 3(推理时应用)。输入 bad case \(x\) → 状态编码(输入嵌入+基线分数+历史最优分数+步数)→ 高层 PPO Agent 选择功能网络类别 \(C_k\) → 低层 PPO Agent 选择扰动类型+幅度 → 自适应掩码定位具体神经元 → 临时扰动激活值 → 评估纠正输出 → 反馈奖励更新策略。
关键设计¶
- 层次强化学习架构:
- 做什么:将巨大的神经元扰动空间分解为可管理的两层决策
- 高层策略 \(\pi_H(a_H|s)\):从功能网络类别集合 \(A_H = \{C_1, ..., C_{N_H}\}\) 中选择宏观干预目标(如语言网络、知识网络等)
- 低层策略 \(\pi_L(a_L|s, a_H)\):给定高层选择,决定扰动类型 \(a_L^{\text{type}} \in \{\text{noise, zero, scale, ...}\}\) 和幅度 \(a_L^{\text{mag}} \in \{m_1, ..., m_{N_M}\}\)
-
设计动机:直接在全部神经元上搜索最优扰动是不可行的,层次分解使搜索空间可管理且语义化
-
自适应掩码 + 因果追踪:
- 做什么:精确定位哪些神经元需要扰动
- 两阶段掩码:(a) 通用稀疏掩码 \(M_{k,l}(i; \theta_{k,l})\) ——可学习的门控参数,通过 L1+L0 正则化强制稀疏;(b) 输入特定适配 ——使用 Integrated Gradients 计算因果追踪的归因分数 \(\text{Attr}_l(x, i)\),与通用掩码逐元素相乘得到最终操作掩码 \(M_{op,k,l}\)
-
设计动机:通用掩码学习"哪些神经元通常与幻觉相关",因果追踪适配"当前输入的关键神经元",两者结合实现精准+高效的定位
-
多维度奖励函数:
- 做什么:同时优化幻觉减少、相关性保持和流畅性
- 奖励:\(R_t = w_h \cdot \Delta\text{Score}_{h,t} + w_r \cdot \Delta\text{Score}_{r,t} + w_f \cdot \Delta\text{Score}_{f,t} + R_{\text{exp},t}\)
- 使用分数变化量而非绝对值——减少 LLM-as-Judge 评估偏差的影响
- 设计动机:纯优化幻觉减少可能损害流畅性和相关性,多目标奖励确保纠正后的输出保持高质量
训练策略¶
PPO 优化两级策略网络。掩码参数 \(\theta_{\text{mask}}\) 和 RL 策略独立优化。扰动是临时的——只在当前推理时应用,不修改模型权重。
实验关键数据¶
主实验 — 多选题任务(Llama2-7B-Chat)¶
| 方法 | StoryCloze | SST-2 | BoolQ | Winogrande | Avg |
|---|---|---|---|---|---|
| Baseline | 65.06 | 88.63 | 70.52 | 50.91 | 68.78 |
| ITI (静态) | 68.50 | 91.38 | 74.10 | 52.80 | 71.70 |
| CAA (静态) | 74.65 | 91.16 | 74.98 | 52.64 | 73.36 |
| SADI (动态) | 67.57 | 88.69 | 70.40 | 51.93 | 69.65 |
| LLM-CAS | 76.04 | 91.30 | 74.47 | 52.90 | 73.68 |
消融实验¶
| 配置 | SST-2 | BoolQ | Winogrande | StoryCloze | Avg |
|---|---|---|---|---|---|
| Full | 91.30 | 74.47 | 52.90 | 76.04 | 73.68 |
| Random mask | 86.73 | 67.10 | 51.32 | 70.20 | 68.84 |
| Random action | 82.45 | 64.32 | 49.15 | 66.87 | 65.70 |
| Both random | 80.18 | 62.05 | 47.98 | 63.41 | 63.41 |
关键发现¶
- LLM-CAS 在 StoryCloze 上提升 10.98%(65.06→76.04),是所有方法中最大的提升——叙事连贯性任务最受益
- SADI(启发式动态干预)甚至不如静态 ITI/CAA——说明没有学习到的优化,简单的动态调整可能适得其反
- 消融显示 PPO 和动态掩码缺一不可——去掉 PPO 后平均下降 7.98%,去掉掩码下降 4.84%,都去掉下降 10.27%
- 跨模型验证有效:Mistral-7B 上 StoryCloze 从 21.51→34.41(+12.9),Gemma-7B 上从 60.95→69.76(+8.81)
- 推理时间开销可接受:PPO 决策时间远小于模型前向传播时间
亮点与洞察¶
- HRL 建模的思路新颖:首次将幻觉纠正建模为层次 RL——高层选"在哪干预"、低层选"怎么干预",比启发式规则更原则化
- 临时扰动 vs 永久编辑:扰动只在当前推理时生效,完全不修改模型权重——零灾难性遗忘风险,这是对静态模型编辑的根本性改进
- 通用掩码+因果追踪的两阶段精准定位:学一个通用模板+实时因果适配——高效且精准
局限性 / 可改进方向¶
- 仅在 7B 模型上验证,更大规模模型的有效性待确认
- RL Agent 的训练仍需要一定的计算资源和"bad cases"数据
- 开放生成任务的改进幅度(TriviaQA +2.71)不如多选题(StoryCloze +10.98),可能因为开放生成的奖励信号更难设计
- LLM-as-Judge 的评估偏差可能影响训练信号质量
- 功能网络类别的定义依赖先验知识,可以改为自动发现
相关工作与启发¶
- vs ITI/CAA: 静态导向向量 vs 学习到的动态策略——LLM-CAS 的自适应能力更强
- vs SADI: SADI 用启发式生成动态向量但效果反而比静态方法差,LLM-CAS 用 HRL 学习到更好的策略
- vs PING(本批笔记中的Agentic安全论文): PING 在响应层面干预(前缀注入),LLM-CAS 在神经元层面干预——互补的两个层次
- 启发:MUG(反事实测试)检测幻觉 Agent + LLM-CAS 纠正幻觉的神经元 = 检测+纠正的完整流水线
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ HRL+动态神经元扰动+因果追踪的组合非常新颖
- 实验充分度: ⭐⭐⭐⭐ 多选+生成任务、3个模型、消融完整,但缺少更大模型验证
- 写作质量: ⭐⭐⭐⭐ 形式化严谨,但部分公式略冗长
- 价值: ⭐⭐⭐⭐⭐ 将幻觉纠正从启发式推向学习化的里程碑式工作