跳转至

Mechanistic Interpretability of Emotion Inference in Large Language Models

会议: ACL2025 arXiv: 2502.05489 代码: GitHub(论文中提到) 领域: llm_nlp 关键词: 机制可解释性, 情感推理, 激活修补, 认知评估理论, 生成引导

一句话总结

通过 probing、activation patching 和 generation steering 三种机制可解释性技术,发现 LLM 的情感表征功能性地定位于中间层的 MHSA 单元,并基于认知评估理论(appraisal theory)证明这些表征具有心理学合理性,成功通过干预评估概念(如 self-agency、pleasantness)引导情感输出。

研究背景与动机

  1. 领域现状:LLM 在情感识别和推理任务上表现出色,某些场景甚至超越人类。但现有研究主要将 LLM 视为黑箱,通过零样本或上下文学习测试其性能。
  2. 现有痛点:对 LLM 内部如何表征和处理情感信息的理解极为匮乏;已有的机制可解释性研究聚焦于简化的合成结构(如间接宾语识别),难以泛化到自然文本。
  3. 核心矛盾:LLM 在高风险情感领域(心理健康、法律决策)的应用日益增多,但我们对其情感处理机制一无所知——既无法验证其可靠性,也无法控制其情感输出。
  4. 本文要解决什么:揭示 LLM 情感推理的内部机制——在哪些层、哪些组件发生情感处理?能否通过干预内部表征来控制情感输出?
  5. 切入角度:借鉴认知神经科学中的功能定位方法(找脑区→干预→验证因果)和心理学的认知评估理论(情感源于对情境的评估判断),将两者迁移到 LLM 内部分析。
  6. 核心 idea:情感表征在 LLM 中是功能性定位的——集中在中间层 MHSA 单元;且这些表征编码了心理学合理的评估维度(pleasantness、agency 等),可通过调控评估概念实现因果性的情感引导。

方法详解

整体框架

使用三层递进的方法论:定位(probing)→ 验证因果性(activation patching)→ 控制输出(generation steering),在 10 个模型(5 个家族,1B-13B 规模)上系统验证。

第一步:线性探针定位情感信号

  • 在每层的 MHSA 输出 \(\mathbf{a}^{(l)}\)、FFN 输出 \(\mathbf{m}^{(l)}\)、隐藏状态 \(\mathbf{h}^{(l)}\) 上训练线性分类器预测 13 类情感
  • 使用 crowd-enVENT 数据集(6,800 条情感短文,含自报告情感标签和 23 个评估变量)
  • 仅分析 LLM 与人类标注一致的样本(≥2,700 条),确保分析可靠的机制
  • 发现:情感信号在中间层显著增强并趋于稳定(如 Llama 3.2 1B 在第 10 层/共 16 层达到峰值),后续层无显著提升

第二步:激活修补验证因果性

  • 将"源样本"的激活向量注入"目标样本"的计算图中,测试是否能转移情感标签
  • 在 5 层窗口内对最后一个 token 进行激活替换
  • 发现
  • MHSA 和 FFN 的成功修补高度定位于特定中间层(如 Llama 3.2 1B 的 9-11 层)
  • FFN 的关键修补位置略晚于 MHSA,暗示 MHSA 先聚合情感信息,FFN 随后处理
  • 注意力模式可视化:早期层关注语法 → 中间层转向情感相关 token → 最后几层主要传递最后 token 的隐藏状态

第三步:评估概念探测与情感引导

评估概念探测: - 为每个评估维度(pleasantness、other-agency、predictability 等 23 个变量)训练线性回归探针 - 发现评估信号在后期层强烈存在,且评估-情感的余弦相似度在早中期层呈现心理学合理的映射(如 anger ↔ 高 other-agency + 低 pleasantness)

情感引导(Generation Steering): - 定义每个评估维度的"唯一效应向量" \(\mathbf{z}_a\):将评估向量投影到其他评估向量构成的子空间的正交补空间 - 通过 \(\mathbf{x} \leftarrow \mathbf{x} + \beta \frac{\mathbf{z}_a}{\|\mathbf{z}_a\|_2}\) 注入干预,\(\beta > 0\) 为促进,\(\beta < 0\) 为抑制 - 在 Llama 3.2 1B 的第 9 层进行干预

损失函数 / 优化目标

本文不涉及模型训练,探针使用标准交叉熵(分类)和 MSE(回归)进行训练。

实验关键数据

探针准确率

模型 层数 情感信号稳定层 峰值准确率
Llama 3.2 1B 16 ~第 10 层 高(具体值见热力图)
Llama 3.1 8B 32 ~第 16-18 层
Gemma 2 2B 26 ~第 13 层
OLMo 2 7B 32 ~第 16 层
Phi 3.5 mini 32 ~第 16 层
  • 所有 10 个模型(5 家族 × 2 规模)均呈现相同趋势:中间层稳定

激活修补成功率

  • MHSA 修补在特定中间层成功率极高(如 Llama 3.2 1B 第 9-11 层),其他层接近 0
  • 隐藏状态修补从中间层开始持续有效直至最后层(因残差流的累积效应)

评估概念干预(Generation Steering)

在 Llama 3.2 1B 第 9 层的干预结果: - 促进 pleasantness(↑β):joy 和 pride 占比显著增加(符合理论预期) - 抑制 pleasantness(↓β):sadness、guilt、anger 占比增加 - 促进 other-agency(↑β):anger 占比显著增加 - 抑制 other-agency(↓β):guilt 占比增加 - 联合促进 pleasant + other-agency:pride 占比增加且 joy 消失(精确匹配理论预测)

鲁棒性验证

  • prompt 的格式、措辞、结构变化不影响结论
  • 控制实验:对语法类似但非情感的任务(如间接宾语识别),同一层的单元并不关键,验证了功能特异性
  • 最后 5 个 token 的分析确认最后 token 的信号最强

亮点与洞察

  1. 方法论的完整因果链:probing(相关性)→ activation patching(必要性)→ generation steering(充分性),三步形成完整的机制证据链
  2. 心理学理论的精彩融入:将认知评估理论引入 MI 分析,不仅解释了 LLM "在哪处理情感",还揭示了"以什么方式处理"——通过 pleasantness、agency 等维度构建情感空间
  3. 跨模型一致性极强:10 个模型涵盖 5 个家族(Llama、Gemma、OLMo、Phi、Mistral),中间层定位的结论高度一致
  4. 联合评估干预的精确性:同时调控两个评估维度能精确引导到特定情感(如 pleasant + other-agency → pride),证明 LLM 内部确实存在多维度的情感评估结构

局限性

  1. 线性表征假设可能不完全成立——近期研究表明并非所有特征都是线性编码的
  2. 因果方向性未完全建立:评估概念与情感可能是相关而非因果关系,也可能存在逆向因果
  3. 计算量限制导致详细的评估干预和鲁棒性测试仅在 Llama 3.2 1B 上进行
  4. crowd-enVENT 数据集为英语单语,跨语言泛化未验证
  5. 情感本身的定义在心理学界仍有争议,13 类情感的分类粒度可能不是最优选择

相关工作与启发

  • 与 Meng et al. (2022) 的关系:后者用 activation patching 定位事实知识存储位置,本文将同一范式扩展到情感概念的定位和干预
  • 与 Templeton et al. (2024) 的关系:Anthropic 的 clamping 特征方法用于控制模型输出,本文的评估概念干预提供了更有心理学理论基础的情感控制路径
  • 与认知神经科学的桥梁:LLM 的注意力模式与人类阅读时的眼动数据相关,中间层的功能定位类似于大脑的功能区分化——这个类比为理解 LLM 提供了新视角
  • 启发:(1) 可将评估理论引导的干预用于 LLM 安全对齐(如抑制敌意情感);(2) 多维评估空间可用于为 LLM 注入特定人格或情绪状态;(3) 方法论可扩展到其他心理学概念(如道德判断、社会认知)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次将认知评估理论与机制可解释性结合,在自然文本上实现情感表征的定位和因果干预
  • 实验充分度: ⭐⭐⭐⭐⭐ — 10 个模型、三种 MI 技术、多重鲁棒性验证、控制实验,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 公式推导清晰,图表直观,但部分符号较密集
  • 价值: ⭐⭐⭐⭐⭐ — 对 LLM 情感安全和可控性研究有重要意义,方法论可广泛迁移