Mechanistic Interpretability of Emotion Inference in Large Language Models¶

会议: ACL2025 arXiv: 2502.05489 代码: GitHub（论文中提到）领域: llm_nlp 关键词: 机制可解释性, 情感推理, 激活修补, 认知评估理论, 生成引导

一句话总结¶

通过 probing、activation patching 和 generation steering 三种机制可解释性技术，发现 LLM 的情感表征功能性地定位于中间层的 MHSA 单元，并基于认知评估理论（appraisal theory）证明这些表征具有心理学合理性，成功通过干预评估概念（如 self-agency、pleasantness）引导情感输出。

研究背景与动机¶

领域现状：LLM 在情感识别和推理任务上表现出色，某些场景甚至超越人类。但现有研究主要将 LLM 视为黑箱，通过零样本或上下文学习测试其性能。
现有痛点：对 LLM 内部如何表征和处理情感信息的理解极为匮乏；已有的机制可解释性研究聚焦于简化的合成结构（如间接宾语识别），难以泛化到自然文本。
核心矛盾：LLM 在高风险情感领域（心理健康、法律决策）的应用日益增多，但我们对其情感处理机制一无所知——既无法验证其可靠性，也无法控制其情感输出。
本文要解决什么：揭示 LLM 情感推理的内部机制——在哪些层、哪些组件发生情感处理？能否通过干预内部表征来控制情感输出？
切入角度：借鉴认知神经科学中的功能定位方法（找脑区→干预→验证因果）和心理学的认知评估理论（情感源于对情境的评估判断），将两者迁移到 LLM 内部分析。
核心 idea：情感表征在 LLM 中是功能性定位的——集中在中间层 MHSA 单元；且这些表征编码了心理学合理的评估维度（pleasantness、agency 等），可通过调控评估概念实现因果性的情感引导。

方法详解¶

整体框架¶

使用三层递进的方法论：定位（probing）→ 验证因果性（activation patching）→ 控制输出（generation steering），在 10 个模型（5 个家族，1B-13B 规模）上系统验证。

第一步：线性探针定位情感信号¶

在每层的 MHSA 输出 \(\mathbf{a}^{(l)}\)、FFN 输出 \(\mathbf{m}^{(l)}\)、隐藏状态 \(\mathbf{h}^{(l)}\) 上训练线性分类器预测 13 类情感
使用 crowd-enVENT 数据集（6,800 条情感短文，含自报告情感标签和 23 个评估变量）
仅分析 LLM 与人类标注一致的样本（≥2,700 条），确保分析可靠的机制
发现：情感信号在中间层显著增强并趋于稳定（如 Llama 3.2 1B 在第 10 层/共 16 层达到峰值），后续层无显著提升

第二步：激活修补验证因果性¶

将"源样本"的激活向量注入"目标样本"的计算图中，测试是否能转移情感标签
在 5 层窗口内对最后一个 token 进行激活替换
发现：
MHSA 和 FFN 的成功修补高度定位于特定中间层（如 Llama 3.2 1B 的 9-11 层）
FFN 的关键修补位置略晚于 MHSA，暗示 MHSA 先聚合情感信息，FFN 随后处理
注意力模式可视化：早期层关注语法 → 中间层转向情感相关 token → 最后几层主要传递最后 token 的隐藏状态

第三步：评估概念探测与情感引导¶

评估概念探测： - 为每个评估维度（pleasantness、other-agency、predictability 等 23 个变量）训练线性回归探针 - 发现评估信号在后期层强烈存在，且评估-情感的余弦相似度在早中期层呈现心理学合理的映射（如 anger ↔ 高 other-agency + 低 pleasantness）

情感引导（Generation Steering）： - 定义每个评估维度的"唯一效应向量" \(\mathbf{z}_a\)：将评估向量投影到其他评估向量构成的子空间的正交补空间 - 通过 \(\mathbf{x} \leftarrow \mathbf{x} + \beta \frac{\mathbf{z}_a}{\|\mathbf{z}_a\|_2}\) 注入干预，\(\beta > 0\) 为促进，\(\beta < 0\) 为抑制 - 在 Llama 3.2 1B 的第 9 层进行干预

损失函数 / 优化目标¶

本文不涉及模型训练，探针使用标准交叉熵（分类）和 MSE（回归）进行训练。

实验关键数据¶

探针准确率¶

模型	层数	情感信号稳定层	峰值准确率
Llama 3.2 1B	16	~第 10 层	高（具体值见热力图）
Llama 3.1 8B	32	~第 16-18 层	高
Gemma 2 2B	26	~第 13 层	高
OLMo 2 7B	32	~第 16 层	高
Phi 3.5 mini	32	~第 16 层	高

所有 10 个模型（5 家族 × 2 规模）均呈现相同趋势：中间层稳定

激活修补成功率¶

MHSA 修补在特定中间层成功率极高（如 Llama 3.2 1B 第 9-11 层），其他层接近 0
隐藏状态修补从中间层开始持续有效直至最后层（因残差流的累积效应）

评估概念干预（Generation Steering）¶

在 Llama 3.2 1B 第 9 层的干预结果： - 促进 pleasantness（↑β）：joy 和 pride 占比显著增加（符合理论预期） - 抑制 pleasantness（↓β）：sadness、guilt、anger 占比增加 - 促进 other-agency（↑β）：anger 占比显著增加 - 抑制 other-agency（↓β）：guilt 占比增加 - 联合促进 pleasant + other-agency：pride 占比增加且 joy 消失（精确匹配理论预测）

鲁棒性验证¶

prompt 的格式、措辞、结构变化不影响结论
控制实验：对语法类似但非情感的任务（如间接宾语识别），同一层的单元并不关键，验证了功能特异性
最后 5 个 token 的分析确认最后 token 的信号最强

亮点与洞察¶

方法论的完整因果链：probing（相关性）→ activation patching（必要性）→ generation steering（充分性），三步形成完整的机制证据链
心理学理论的精彩融入：将认知评估理论引入 MI 分析，不仅解释了 LLM "在哪处理情感"，还揭示了"以什么方式处理"——通过 pleasantness、agency 等维度构建情感空间
跨模型一致性极强：10 个模型涵盖 5 个家族（Llama、Gemma、OLMo、Phi、Mistral），中间层定位的结论高度一致
联合评估干预的精确性：同时调控两个评估维度能精确引导到特定情感（如 pleasant + other-agency → pride），证明 LLM 内部确实存在多维度的情感评估结构

局限性¶

线性表征假设可能不完全成立——近期研究表明并非所有特征都是线性编码的
因果方向性未完全建立：评估概念与情感可能是相关而非因果关系，也可能存在逆向因果
计算量限制导致详细的评估干预和鲁棒性测试仅在 Llama 3.2 1B 上进行
crowd-enVENT 数据集为英语单语，跨语言泛化未验证
情感本身的定义在心理学界仍有争议，13 类情感的分类粒度可能不是最优选择

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将认知评估理论与机制可解释性结合，在自然文本上实现情感表征的定位和因果干预
实验充分度: ⭐⭐⭐⭐⭐ — 10 个模型、三种 MI 技术、多重鲁棒性验证、控制实验，非常全面
写作质量: ⭐⭐⭐⭐ — 公式推导清晰，图表直观，但部分符号较密集
价值: ⭐⭐⭐⭐⭐ — 对 LLM 情感安全和可控性研究有重要意义，方法论可广泛迁移