Can Third-parties Read Our Emotions?¶

会议: ACL 2025
arXiv: 2504.18673
代码: 无
领域: 其他
关键词: 情感识别, 标注质量, 第三方标注, LLM标注, 人口统计学

一句话总结¶

本文通过人类被试实验，系统比较了第三方标注者（人类标注者和LLM）与第一方（作者自标注）在情感识别任务中的对齐程度，发现第三方标注与作者真实情感之间存在显著差距，LLM虽优于人类标注者，但仍表现不佳；人口统计学相似性可提升标注质量。

研究背景与动机¶

自然语言处理中大量涉及推断作者私人状态（情感、观点等）的任务，如情感分类、讽刺检测、立场检测等，普遍依赖第三方标注者标注的"金标准"数据集。然而，这种做法隐含着一个未经充分检验的假设：第三方标注者能够准确捕捉作者的内在情感状态。

实际上，主观语言往往缺乏显式的语言线索，标注者需要对文本线索进行推理，而这些线索可能是隐式的、模糊的或依赖上下文的。更进一步，标注者自身的社会人口学背景、文化因素和个人信念都会影响他们对作者文本的解读。

这种错位不仅是标注错误，更会通过训练数据传播到模型中，影响下游应用的可靠性。在高风险场景（如内容审核、欺骗检测、治疗聊天机器人）中，对用户情感的误读可能造成社会危害。

方法详解¶

整体框架¶

研究设计为两阶段的人类被试实验： 1. 收集第一方数据：社交媒体用户提交自己的帖子并自标注情感 2. 收集第三方标注：由人类标注者和LLM对同一组帖子进行情感标注，并与第一方标签对比

关键设计¶

情感分类体系: 采用Demszky等人（2020）提出的细粒度情感分类法，包含27种不同情感加上"中性"（共28个类别）。同时将这28个类别聚合为7个基本情感组（joy、love、anger、surprise、fear、sadness、neutral）进行粗粒度分析。
第一方数据收集: 通过Connect众包平台招募美国社交媒体用户，覆盖三个年龄组（18-27、28-43、44-59）、两种性别（女性、男性）和三个种族（Black、White、Asian），采用交叉招募策略以确保人口学平衡。123位参与者提供了729条帖子（44%纯文本，56%图文混合），每人提交5-15条过去12个月的帖子并自标注情感。
第三方人类标注: 为每条帖子分配6位标注者——3位同组标注者（与作者共享人口学三特征：年龄组、性别、种族）和3位异组标注者（至少在两个特征上与作者不同）。标注者看到原始帖子截图，从28个情感类别中选择作者表达的情感（多标签任务）。
LLM标注: 使用GPT-4 Turbo、GPT-4o、Gemini 1.5 Pro、Gemini 1.5 Flash和Claude 3.5 Sonnet五个模型，提供与人类标注者相同的帖子截图和指令（多模态输入）。
人口统计学提示实验（RQ3）: 将第一方作者的人口学信息（年龄、性别、种族）加入LLM的prompt中，探索是否能提升标注的对齐度。

损失函数 / 训练策略¶

本文不涉及模型训练，核心评估指标包括： - Cohen's kappa: 衡量标注者与金标准的一致性 - F1 score / Recall / Precision: 多标签分类评估 - Wilcoxon符号秩检验: 判断组间差异的统计显著性 - 线性混合模型: 控制任务ID和标注者ID的随机效应，进行标注者水平的比较

实验关键数据¶

主实验¶

第三方标注与第一方标签的对齐度（多数投票后，宏平均）：

标注者类型	Precision	Recall	F1	Cohen's κ范围
同组人类标注者	0.38	0.29	0.32	0-0.45
异组人类标注者	0.36	0.24	0.28	0-0.45
LLM（5模型多数投票）	0.38	0.50	0.40	0-0.45

LLM vs 人类标注者对比（Wilcoxon检验）：

对比维度	同组 vs LLM p值	异组 vs LLM p值
F1	8.34×10⁻¹² ***	4.62×10⁻²⁵ ***
Recall	4.95×10⁻³¹ ***	2.76×10⁻³⁹ ***
Cohen's κ	2.75×10⁻⁵ ***	7.45×10⁻⁹ ***

消融实验¶

同组 vs 异组标注者对比（帖子级别，Wilcoxon检验）：

指标	同组中位数	异组中位数	p值
F1	0.29	0.00	0.004*
Recall	0.25	0.00	0.001*
Cohen's κ	0.28	0.24	0.028*

人口统计学提示对LLM的影响：F1的p=0.0095（显著），但实际中位数未变化（仍为0.4），实际性能提升有限。

关键发现¶

第三方标注（无论人类还是LLM）与第一方标签存在系统性的低对齐度（kappa 0-0.45，大多处于"低到一般"水平）
LLM在几乎所有情感上的标注性能都优于人类标注者，但对grief、sadness、curiosity等情感，同组人类标注者表现可比甚至更好
realization、relief和neutral始终表现最差，说明这些情感最难被第三方识别
同组标注者（共享人口学特征）显著优于异组标注者，特别是在recall和F1上
高对齐的帖子通常包含明确的情感词汇线索（如"happy"对应joy），低对齐的帖子往往缺少文本线索或依赖上下文
大量作者自报"neutral"但帖子中包含可辨识的情感线索——情感语言的存在不等于作者的内在情感状态

亮点与洞察¶

挑战基本假设：直接挑战了NLP领域广泛依赖的第三方标注范式，特别是对于涉及推断私人状态的任务。这一发现对整个情感分析/意见挖掘领域的数据构建实践有深远影响。
第一方 vs 第三方的根本差异：一句"I got a cup of coffee"可能表达完全不同的情感，取决于说话者和上下文——这种信息对第三方可能是不透明的。我们建模的到底是第三方对情感的感知，还是作者实际表达的情感？
多模态实验设计：使用原始帖子截图（而非仅文本）作为输入，更真实地模拟了标注场景。
LLM作为标注者的优势和局限：虽然LLM整体优于人类标注者，但在涉及细腻情感理解的任务上仍有明显不足。

局限与展望¶

第一方标签本身是否真实反映了作者内在情感，无法外部验证（自标注也可能不准确）
被试仅限于美国用户，文化和语言多样性不足
部分人口学交叉组（如44-59岁亚洲参与者）样本量较少
样本量相对有限（729条帖子、123位参与者），可能影响统计分析的稳健性
仅研究了情感识别任务，结论对其他私人状态推断任务的泛化需要进一步验证
人口统计学提示对LLM的实际改善微乎其微，需要探索更有效的方法
未考虑时间和上下文因素——同一作者在不同时间对同一帖子的情感标注可能不同

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统比较第一方和第三方情感标注，角度新颖但方法较为直接
实验充分度: ⭐⭐⭐⭐ 包含多维度比较（人类vs LLM、同组vs异组、有/无人口学提示），统计分析严谨
写作质量: ⭐⭐⭐⭐ 研究问题清晰，讨论深入，但篇幅较长
价值: ⭐⭐⭐⭐ 对情感标注实践有重要警示意义，但直接的实践指导相对有限