跳转至

Can Third-parties Read Our Emotions?

会议: ACL 2025
arXiv: 2504.18673
代码: 无
领域: 其他
关键词: 情感识别, 标注质量, 第三方标注, LLM标注, 人口统计学

一句话总结

本文通过人类被试实验,系统比较了第三方标注者(人类标注者和LLM)与第一方(作者自标注)在情感识别任务中的对齐程度,发现第三方标注与作者真实情感之间存在显著差距,LLM虽优于人类标注者,但仍表现不佳;人口统计学相似性可提升标注质量。

研究背景与动机

自然语言处理中大量涉及推断作者私人状态(情感、观点等)的任务,如情感分类、讽刺检测、立场检测等,普遍依赖第三方标注者标注的"金标准"数据集。然而,这种做法隐含着一个未经充分检验的假设:第三方标注者能够准确捕捉作者的内在情感状态。

实际上,主观语言往往缺乏显式的语言线索,标注者需要对文本线索进行推理,而这些线索可能是隐式的、模糊的或依赖上下文的。更进一步,标注者自身的社会人口学背景、文化因素和个人信念都会影响他们对作者文本的解读。

这种错位不仅是标注错误,更会通过训练数据传播到模型中,影响下游应用的可靠性。在高风险场景(如内容审核、欺骗检测、治疗聊天机器人)中,对用户情感的误读可能造成社会危害。

方法详解

整体框架

研究设计为两阶段的人类被试实验: 1. 收集第一方数据:社交媒体用户提交自己的帖子并自标注情感 2. 收集第三方标注:由人类标注者和LLM对同一组帖子进行情感标注,并与第一方标签对比

关键设计

  1. 情感分类体系: 采用Demszky等人(2020)提出的细粒度情感分类法,包含27种不同情感加上"中性"(共28个类别)。同时将这28个类别聚合为7个基本情感组(joy、love、anger、surprise、fear、sadness、neutral)进行粗粒度分析。

  2. 第一方数据收集: 通过Connect众包平台招募美国社交媒体用户,覆盖三个年龄组(18-27、28-43、44-59)、两种性别(女性、男性)和三个种族(Black、White、Asian),采用交叉招募策略以确保人口学平衡。123位参与者提供了729条帖子(44%纯文本,56%图文混合),每人提交5-15条过去12个月的帖子并自标注情感。

  3. 第三方人类标注: 为每条帖子分配6位标注者——3位同组标注者(与作者共享人口学三特征:年龄组、性别、种族)和3位异组标注者(至少在两个特征上与作者不同)。标注者看到原始帖子截图,从28个情感类别中选择作者表达的情感(多标签任务)。

  4. LLM标注: 使用GPT-4 Turbo、GPT-4o、Gemini 1.5 Pro、Gemini 1.5 Flash和Claude 3.5 Sonnet五个模型,提供与人类标注者相同的帖子截图和指令(多模态输入)。

  5. 人口统计学提示实验(RQ3): 将第一方作者的人口学信息(年龄、性别、种族)加入LLM的prompt中,探索是否能提升标注的对齐度。

损失函数 / 训练策略

本文不涉及模型训练,核心评估指标包括: - Cohen's kappa: 衡量标注者与金标准的一致性 - F1 score / Recall / Precision: 多标签分类评估 - Wilcoxon符号秩检验: 判断组间差异的统计显著性 - 线性混合模型: 控制任务ID和标注者ID的随机效应,进行标注者水平的比较

实验关键数据

主实验

第三方标注与第一方标签的对齐度(多数投票后,宏平均):

标注者类型 Precision Recall F1 Cohen's κ范围
同组人类标注者 0.38 0.29 0.32 0-0.45
异组人类标注者 0.36 0.24 0.28 0-0.45
LLM(5模型多数投票) 0.38 0.50 0.40 0-0.45

LLM vs 人类标注者对比(Wilcoxon检验):

对比维度 同组 vs LLM p值 异组 vs LLM p值
F1 8.34×10⁻¹² *** 4.62×10⁻²⁵ ***
Recall 4.95×10⁻³¹ *** 2.76×10⁻³⁹ ***
Cohen's κ 2.75×10⁻⁵ *** 7.45×10⁻⁹ ***

消融实验

同组 vs 异组标注者对比(帖子级别,Wilcoxon检验):

指标 同组中位数 异组中位数 p值
F1 0.29 0.00 0.004*
Recall 0.25 0.00 0.001*
Cohen's κ 0.28 0.24 0.028*

人口统计学提示对LLM的影响:F1的p=0.0095(显著),但实际中位数未变化(仍为0.4),实际性能提升有限。

关键发现

  • 第三方标注(无论人类还是LLM)与第一方标签存在系统性的低对齐度(kappa 0-0.45,大多处于"低到一般"水平)
  • LLM在几乎所有情感上的标注性能都优于人类标注者,但对grief、sadness、curiosity等情感,同组人类标注者表现可比甚至更好
  • realization、relief和neutral始终表现最差,说明这些情感最难被第三方识别
  • 同组标注者(共享人口学特征)显著优于异组标注者,特别是在recall和F1上
  • 高对齐的帖子通常包含明确的情感词汇线索(如"happy"对应joy),低对齐的帖子往往缺少文本线索或依赖上下文
  • 大量作者自报"neutral"但帖子中包含可辨识的情感线索——情感语言的存在不等于作者的内在情感状态

亮点与洞察

  1. 挑战基本假设:直接挑战了NLP领域广泛依赖的第三方标注范式,特别是对于涉及推断私人状态的任务。这一发现对整个情感分析/意见挖掘领域的数据构建实践有深远影响。
  2. 第一方 vs 第三方的根本差异:一句"I got a cup of coffee"可能表达完全不同的情感,取决于说话者和上下文——这种信息对第三方可能是不透明的。我们建模的到底是第三方对情感的感知,还是作者实际表达的情感?
  3. 多模态实验设计:使用原始帖子截图(而非仅文本)作为输入,更真实地模拟了标注场景。
  4. LLM作为标注者的优势和局限:虽然LLM整体优于人类标注者,但在涉及细腻情感理解的任务上仍有明显不足。

局限与展望

  • 第一方标签本身是否真实反映了作者内在情感,无法外部验证(自标注也可能不准确)
  • 被试仅限于美国用户,文化和语言多样性不足
  • 部分人口学交叉组(如44-59岁亚洲参与者)样本量较少
  • 样本量相对有限(729条帖子、123位参与者),可能影响统计分析的稳健性
  • 仅研究了情感识别任务,结论对其他私人状态推断任务的泛化需要进一步验证
  • 人口统计学提示对LLM的实际改善微乎其微,需要探索更有效的方法
  • 未考虑时间和上下文因素——同一作者在不同时间对同一帖子的情感标注可能不同

相关工作与启发

  • 与Oprea & Magdy(2019)关于讽刺检测中意图vs感知差异的工作类似,但本文更聚焦于情感这一更基础的私人状态
  • 对数据标注实践有直接启示:在涉及私人状态的任务中,应考虑引入第一方反馈作为标注的补充
  • 社会学和心理学中关于情感表达和解读受文化/社会因素影响的研究在NLP中找到了实证回应
  • 为LLM对齐研究提供了一个警示:如果训练数据中的情感标签本身就不准确地反映了用户的真实情感,那么基于这些数据训练的模型在情感理解上必然存在系统性偏差

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统比较第一方和第三方情感标注,角度新颖但方法较为直接
  • 实验充分度: ⭐⭐⭐⭐ 包含多维度比较(人类vs LLM、同组vs异组、有/无人口学提示),统计分析严谨
  • 写作质量: ⭐⭐⭐⭐ 研究问题清晰,讨论深入,但篇幅较长
  • 价值: ⭐⭐⭐⭐ 对情感标注实践有重要警示意义,但直接的实践指导相对有限

相关论文