Stochastic Chameleons: Irrelevant Context Hallucinations Reveal Class-Based (Mis)Generalization in LLMs¶

会议: ACL 2025 arXiv: 2505.22630 代码: GitHub 领域: LLM理论 / 幻觉 / 可解释性 关键词: hallucination, irrelevant context, class-based generalization, mechanistic interpretability, competing circuits

一句话总结¶

通过行为分析和机械可解释性实验揭示 LLM 无关上下文幻觉的内部机制：模型在底层构建抽象类别表示（如"语言"），然后两条竞争电路（query-based vs context-based）争夺特征选择权，相对激活强度决定正确泛化还是产生幻觉。

研究背景与动机¶

领域现状：LLM 在 NLP 基准上表现优异，但"随机鹦鹉"批评认为模型只是拼接训练数据中的统计共现。然而这种说法过于粗糙——模型的错误是否有结构化规律？
现有痛点：已有研究知道无关上下文会导致幻觉（如 RAG 检索到不相关文档时输出错误），但都停留在现象观察层面，不清楚模型内部"为什么"和"怎么"被无关上下文影响。
核心矛盾：上下文敏感性是 ICL 的基础能力（模型必须利用上下文），但同时也是幻觉的根源——这个能力和风险是同一枚硬币的两面。
本文要解决什么？ (a) 无关上下文幻觉是随机的还是结构化的？(b) 模型内部如何处理无关上下文并产生幻觉？
切入角度：设计受控 QA 实验——系统性地改变上下文相关性（同类/异类、相关/无关），用 logit attribution + activation patching + attention knockout 追踪内部信息流。
核心idea一句话：无关上下文幻觉源于"类别级误泛化"——模型先构建抽象类别表示，然后 context-based 电路劫持了特征选择过程。

方法详解¶

整体框架¶

输入格式为 C+Q（无关上下文 C 拼接在查询 Q 前面），对比 Q-only 和 C+Q 两种条件下模型预测的变化。通过行为分析验证"类别级泛化"假设，再通过机械可解释性追踪内部计算机制。实验覆盖 Llama-3 (8B/70B)、Mistral v0.3 (7B)、Pythia (6.9B/12B)，使用 ParaRel 数据集的 39 种事实问答子集。

关键设计¶

类别级(mis)泛化假设：
做什么：提出上下文幻觉的结构化解释框架
核心思路：当模型收到 C+Q 时，先从 Q 推导出答案的"抽象类别"（如"A Secret 的原始语言是？"→ 类别为"语言"），然后从 C 或 Q 中选择特征（如 C 提到 Honda → 日本 → 日语），将类别与特征组合生成答案
设计动机：解释为什么幻觉不是随机的——71% 的上下文幻觉同时满足"提取了上下文特征"和"属于正确类别"
Logit attribution 分析：
做什么：追踪模型各层对候选答案 token 的 logit 贡献
核心思路：将最后一个 token 的残差流 \(R_{T,l}\) 投影到词表空间，追踪 \(C_{\text{cand}}\)（上下文候选）和 \(Q_{\text{cand}}\)（查询候选）在各层的 logit 变化
关键发现：底层（L1-L16）构建抽象类别表示（如"languages"排名最高），中层（L17-L24）两条电路开始竞争，高层确定最终胜者
Activation patching + 注意力 knockout：
做什么：因果干预实验，定位和验证竞争电路
核心思路：在上下文 subject/object token 注入高斯噪声（\(\sigma=0.3\)），然后逐层恢复，测量 Restoration Effect。Context 电路从 L17 开始传递上下文特征到最后 token，query 电路从 L8 开始传递查询特征
设计动机：证明两条独立电路存在——相对强度决定最终输出，L17-L24 是幻觉产生的关键计算窗口

注意力 knockout 翻转实验¶

在 L17 和 L24 限制注意力只关注 query 或 context。Context-dominant 案例中，阻断 context 信息流后 465/1000 样本翻转为 query 候选；query-dominant 案例中，阻断 query 信息流后 225/1000 样本翻转——因果性地验证了双电路竞争假设。

实验关键数据¶

主实验：上下文影响行为分析（106M 数据点）¶

案例	Llama-3	Mistral	Pythia
无影响（top-3 全为 query 候选）	47.9%	48.0%	39.3%
Query-dominant（top-1 为 query）	27.9%	25.7%	27.2%
Context-dominant（top-1 为 context）	15.1%	17.0%	19.2%
全 context 候选	10.1%	10.3%	14.3%

注意力 knockout 消融（Llama-3）¶

配置	\(C_{\text{cand}}\) 概率	\(Q_{\text{cand}}\) 概率	翻转数
Context-dominant 原始	25.5	8.6	—
Knockout L17+L24	13.1	14.8	465/1000
Query-dominant 原始	6.6	35.2	—
Knockout L17+L24	11.3	26.8	225/1000

关键发现¶

71% 幻觉符合类别级泛化假设：500 个人工标注样本中，81.6% 整合了上下文特征，84.4% 属于正确类别
PMI 统计检验显著（p=0.001）：上下文与其产生的候选之间平均 PMI≈4
关键层 L17-L24：context 电路在此区间决定性地将上下文信息整合到最终 token
扩大规模未消除现象：Llama-3 70B 和 Pythia 12B 上类别级泛化以相似频率出现

亮点与洞察¶

"类别级误泛化"假设提供了幻觉的深层结构化解释——不是随机错误而是有组织的计算偏差，比"随机鹦鹉"说法更精确
双电路竞争模型为 RAG 系统检索质量问题提供了机械级洞见：同类别的无关检索结果尤其危险，因为它们会激活 context 电路
"随机变色龙"隐喻对 stochastic parrot 的精化——模型确实能泛化和抽象，但其泛化方式不可靠地依赖上下文线索

局限性 / 可改进方向¶

受控场景较人工：ParaRel 事实问答格式简单，真实长文本 RAG、多轮对话中的幻觉机制可能更复杂
仅事实性 QA：推理幻觉、创造性幻觉的机制可能不同
未提出缓解方法：揭示了机制但未给出干预方案——可探索在 L17-L24 层选择性抑制 context 电路

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双电路竞争 + 类别级泛化假设全新
实验充分度: ⭐⭐⭐⭐⭐ 106M 数据点 + 人工标注 + PMI 统计 + 三种机械可解释性方法
写作质量: ⭐⭐⭐⭐ 推理链清晰，Figure 1 直观
价值: ⭐⭐⭐⭐⭐ 对理解幻觉机制有重要理论意义，对 RAG 设计有直接启示