Mechanistic Interpretability of Emotion Inference in Large Language Models¶
会议: ACL2025 arXiv: 2502.05489 代码: GitHub(论文中提到) 领域: llm_nlp 关键词: 机制可解释性, 情感推理, 激活修补, 认知评估理论, 生成引导
一句话总结¶
通过 probing、activation patching 和 generation steering 三种机制可解释性技术,发现 LLM 的情感表征功能性地定位于中间层的 MHSA 单元,并基于认知评估理论(appraisal theory)证明这些表征具有心理学合理性,成功通过干预评估概念(如 self-agency、pleasantness)引导情感输出。
研究背景与动机¶
- 领域现状:LLM 在情感识别和推理任务上表现出色,某些场景甚至超越人类。但现有研究主要将 LLM 视为黑箱,通过零样本或上下文学习测试其性能。
- 现有痛点:对 LLM 内部如何表征和处理情感信息的理解极为匮乏;已有的机制可解释性研究聚焦于简化的合成结构(如间接宾语识别),难以泛化到自然文本。
- 核心矛盾:LLM 在高风险情感领域(心理健康、法律决策)的应用日益增多,但我们对其情感处理机制一无所知——既无法验证其可靠性,也无法控制其情感输出。
- 本文要解决什么:揭示 LLM 情感推理的内部机制——在哪些层、哪些组件发生情感处理?能否通过干预内部表征来控制情感输出?
- 切入角度:借鉴认知神经科学中的功能定位方法(找脑区→干预→验证因果)和心理学的认知评估理论(情感源于对情境的评估判断),将两者迁移到 LLM 内部分析。
- 核心 idea:情感表征在 LLM 中是功能性定位的——集中在中间层 MHSA 单元;且这些表征编码了心理学合理的评估维度(pleasantness、agency 等),可通过调控评估概念实现因果性的情感引导。
方法详解¶
整体框架¶
使用三层递进的方法论:定位(probing)→ 验证因果性(activation patching)→ 控制输出(generation steering),在 10 个模型(5 个家族,1B-13B 规模)上系统验证。
第一步:线性探针定位情感信号¶
- 在每层的 MHSA 输出 \(\mathbf{a}^{(l)}\)、FFN 输出 \(\mathbf{m}^{(l)}\)、隐藏状态 \(\mathbf{h}^{(l)}\) 上训练线性分类器预测 13 类情感
- 使用 crowd-enVENT 数据集(6,800 条情感短文,含自报告情感标签和 23 个评估变量)
- 仅分析 LLM 与人类标注一致的样本(≥2,700 条),确保分析可靠的机制
- 发现:情感信号在中间层显著增强并趋于稳定(如 Llama 3.2 1B 在第 10 层/共 16 层达到峰值),后续层无显著提升
第二步:激活修补验证因果性¶
- 将"源样本"的激活向量注入"目标样本"的计算图中,测试是否能转移情感标签
- 在 5 层窗口内对最后一个 token 进行激活替换
- 发现:
- MHSA 和 FFN 的成功修补高度定位于特定中间层(如 Llama 3.2 1B 的 9-11 层)
- FFN 的关键修补位置略晚于 MHSA,暗示 MHSA 先聚合情感信息,FFN 随后处理
- 注意力模式可视化:早期层关注语法 → 中间层转向情感相关 token → 最后几层主要传递最后 token 的隐藏状态
第三步:评估概念探测与情感引导¶
评估概念探测: - 为每个评估维度(pleasantness、other-agency、predictability 等 23 个变量)训练线性回归探针 - 发现评估信号在后期层强烈存在,且评估-情感的余弦相似度在早中期层呈现心理学合理的映射(如 anger ↔ 高 other-agency + 低 pleasantness)
情感引导(Generation Steering): - 定义每个评估维度的"唯一效应向量" \(\mathbf{z}_a\):将评估向量投影到其他评估向量构成的子空间的正交补空间 - 通过 \(\mathbf{x} \leftarrow \mathbf{x} + \beta \frac{\mathbf{z}_a}{\|\mathbf{z}_a\|_2}\) 注入干预,\(\beta > 0\) 为促进,\(\beta < 0\) 为抑制 - 在 Llama 3.2 1B 的第 9 层进行干预
损失函数 / 优化目标¶
本文不涉及模型训练,探针使用标准交叉熵(分类)和 MSE(回归)进行训练。
实验关键数据¶
探针准确率¶
| 模型 | 层数 | 情感信号稳定层 | 峰值准确率 |
|---|---|---|---|
| Llama 3.2 1B | 16 | ~第 10 层 | 高(具体值见热力图) |
| Llama 3.1 8B | 32 | ~第 16-18 层 | 高 |
| Gemma 2 2B | 26 | ~第 13 层 | 高 |
| OLMo 2 7B | 32 | ~第 16 层 | 高 |
| Phi 3.5 mini | 32 | ~第 16 层 | 高 |
- 所有 10 个模型(5 家族 × 2 规模)均呈现相同趋势:中间层稳定
激活修补成功率¶
- MHSA 修补在特定中间层成功率极高(如 Llama 3.2 1B 第 9-11 层),其他层接近 0
- 隐藏状态修补从中间层开始持续有效直至最后层(因残差流的累积效应)
评估概念干预(Generation Steering)¶
在 Llama 3.2 1B 第 9 层的干预结果: - 促进 pleasantness(↑β):joy 和 pride 占比显著增加(符合理论预期) - 抑制 pleasantness(↓β):sadness、guilt、anger 占比增加 - 促进 other-agency(↑β):anger 占比显著增加 - 抑制 other-agency(↓β):guilt 占比增加 - 联合促进 pleasant + other-agency:pride 占比增加且 joy 消失(精确匹配理论预测)
鲁棒性验证¶
- prompt 的格式、措辞、结构变化不影响结论
- 控制实验:对语法类似但非情感的任务(如间接宾语识别),同一层的单元并不关键,验证了功能特异性
- 最后 5 个 token 的分析确认最后 token 的信号最强
亮点与洞察¶
- 方法论的完整因果链:probing(相关性)→ activation patching(必要性)→ generation steering(充分性),三步形成完整的机制证据链
- 心理学理论的精彩融入:将认知评估理论引入 MI 分析,不仅解释了 LLM "在哪处理情感",还揭示了"以什么方式处理"——通过 pleasantness、agency 等维度构建情感空间
- 跨模型一致性极强:10 个模型涵盖 5 个家族(Llama、Gemma、OLMo、Phi、Mistral),中间层定位的结论高度一致
- 联合评估干预的精确性:同时调控两个评估维度能精确引导到特定情感(如 pleasant + other-agency → pride),证明 LLM 内部确实存在多维度的情感评估结构
局限性¶
- 线性表征假设可能不完全成立——近期研究表明并非所有特征都是线性编码的
- 因果方向性未完全建立:评估概念与情感可能是相关而非因果关系,也可能存在逆向因果
- 计算量限制导致详细的评估干预和鲁棒性测试仅在 Llama 3.2 1B 上进行
- crowd-enVENT 数据集为英语单语,跨语言泛化未验证
- 情感本身的定义在心理学界仍有争议,13 类情感的分类粒度可能不是最优选择
相关工作与启发¶
- 与 Meng et al. (2022) 的关系:后者用 activation patching 定位事实知识存储位置,本文将同一范式扩展到情感概念的定位和干预
- 与 Templeton et al. (2024) 的关系:Anthropic 的 clamping 特征方法用于控制模型输出,本文的评估概念干预提供了更有心理学理论基础的情感控制路径
- 与认知神经科学的桥梁:LLM 的注意力模式与人类阅读时的眼动数据相关,中间层的功能定位类似于大脑的功能区分化——这个类比为理解 LLM 提供了新视角
- 启发:(1) 可将评估理论引导的干预用于 LLM 安全对齐(如抑制敌意情感);(2) 多维评估空间可用于为 LLM 注入特定人格或情绪状态;(3) 方法论可扩展到其他心理学概念(如道德判断、社会认知)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次将认知评估理论与机制可解释性结合,在自然文本上实现情感表征的定位和因果干预
- 实验充分度: ⭐⭐⭐⭐⭐ — 10 个模型、三种 MI 技术、多重鲁棒性验证、控制实验,非常全面
- 写作质量: ⭐⭐⭐⭐ — 公式推导清晰,图表直观,但部分符号较密集
- 价值: ⭐⭐⭐⭐⭐ — 对 LLM 情感安全和可控性研究有重要意义,方法论可广泛迁移