CHEER-Ekman: Fine-grained Embodied Emotion Classification¶

会议: ACL 2025
arXiv: 2506.01047
代码: https://github.com/menamerai/cheer-ekman (有)
领域: robotics
关键词: 具身情感分类, Ekman情绪, Best-Worst Scaling, 大语言模型, 提示工程

一句话总结¶

本文提出CHEER-Ekman数据集，将CHEER数据集的二元具身情感标注扩展为Ekman六类基础情绪，并采用基于LLM的自动Best-Worst Scaling（BWS）技术实现无需任务特定训练的细粒度情感分类，性能超越有监督BERT。

研究背景与动机¶

领域现状: 情绪不仅是抽象的心理状态，还与身体体验深度交织——快乐时微笑、恐惧时心跳加速。这种"具身情感"（embodied emotion）在NLP中较少被研究，现有工作主要关注显式情感分类和情感分析。
现有痛点: CHEER数据集（Zhuang et al., 2024）虽然提供了7300个人工标注的身体部位表达情感句子，但只支持二元分类（是否包含具身情感），无法区分具体情绪类型——例如心跳加速是恐惧还是兴奋。
核心矛盾: 细粒度情感标注需要大量人工成本，而直接用LLM做zero-shot分类在指令遵循上表现不稳定，容易输出错误结果。
本文要解决什么: （1）构建细粒度具身情感分类数据集；（2）找到无需任务特定训练即可有效分类的方法。
切入角度: 将Ekman六类基础情绪（Joy, Sadness, Anger, Disgust, Fear, Surprise）引入具身情感识别，并借鉴情感强度标注中的自动BWS技术来替代直接分类。
核心idea一句话: 通过Best-Worst Scaling的比较判断机制，让LLM在无监督条件下实现超越BERT的细粒度具身情感分类。

方法详解¶

整体框架¶

本文包含三个核心组件：（1）通过提示简化和CoT提升LLM的具身情感检测能力；（2）构建CHEER-Ekman数据集；（3）采用BWS框架进行情感分类。

关键设计¶

1. 提示简化策略（Prompt Simplification）¶

做什么: 将原始技术性提示语改写为简单日常语言
核心思路: 对比base prompt（Zhuang et al., 2024原始提示）与simplified prompt（降低句法和词汇复杂度）在Llama-3.1和DeepSeek-R1上的效果。采用logit概率比较"True"和"False"的方式获取确定性输出
设计动机: 技术定义可能对LLM造成理解障碍，简化语言可减少潜在困惑

2. Chain-of-Thought (CoT) 提示¶

做什么: 通过多步推理引导模型理解身体-情感关系
核心思路: 设计三种CoT变体：2-step（评估情感因果和无意识表达）、3-step（增加身体部位识别）、simplified 2-step（语言简化的2-step）
设计动机: 显式因果推理可帮助8B小模型达到接近70B大模型的性能

3. CHEER-Ekman数据集构建¶

做什么: 为CHEER数据集的1350个正样本标注Ekman六类情绪
核心思路: 招募2名标注者，提供句子、相关身体部位和上下文（最多3个前导句），选择最匹配的情绪。Cohen's Kappa一致性为0.64
情绪分布: Fear 24.7%, Joy 21.2%, Sadness 19.3%, Surprise 13.3%, Disgust 12.5%, Anger 9.0%

4. Best-Worst Scaling (BWS) 情感分类¶

做什么: 通过比较判断而非直接分类来预测情绪
核心思路: 向LLM呈现4个句子的元组，要求识别最能和最不能代表某种Ekman情绪的实例。通过公式 \(\frac{\#Best - \#Worst}{\#Total}\) 计算每个句子在每种情绪上的得分，选择最高分情绪作为预测
设计动机: 比较判断比直接分类更稳定，避免LLM不遵循指令的问题。测试了从 \(2N\) 到 \(72N\) 的元组数量

损失函数/训练策略¶

本文为无训练方法，不涉及损失函数。BWS的关键超参数是元组数量，实验发现 \(36N\) 达到最佳性能，之后出现平台效应。

实验关键数据¶

主实验¶

具身情感检测任务（二元分类，CHEER数据集，7300句）：

模型	Macro F1	EE F1	Neutral F1
Llama-70B (base prompt)	37.2	35.3	39.0
Llama-70B (simple prompt)	66.7	52.8	80.6
DeepSeek-70B (base prompt)	32.6	33.7	31.5
DeepSeek-70B (simple prompt)	74.2	58.9	89.5
GPT-3.5 (base prompt)	70.2	53.5	86.9
BERT (fine-tuned)	83.5	72.6	94.4

具身情感分类任务（六类分类，CHEER-Ekman数据集，1350句）：

模型	Macro F1	Joy	Sadness	Fear	Anger	Disgust	Surprise
Llama-8B (zero-shot)	31.6	39.4	43.6	26.6	32.2	19.1	28.5
DeepSeek-8B (zero-shot)	28.4	43.3	35.7	33.1	23.1	14.8	20.2
BWS 36N (Llama-8B)	50.6	66.7	64.7	48.0	53.2	22.0	48.9
BERT (supervised)	49.6	68.2	57.5	50.1	30.2	56.1	35.7

消融实验¶

CoT对8B模型的提升效果：

模型	Macro F1
DeepSeek-8B (2-step)	52.2
DeepSeek-8B (3-step)	57.4
DeepSeek-8B (2-step-simple)	67.5
Llama-8B (2-step)	53.4
Llama-8B (3-step)	54.8
Llama-8B (2-step-simple)	60.1

BWS元组数量消融：

元组数	Macro F1
4N	41.8
12N	44.6
36N	50.6
48N	49.8
72N	49.5

关键发现¶

简化提示使Llama-70B的F1提升了29.5个点，DeepSeek-70B提升了41.6个点
CoT使8B模型与70B模型的差距缩小到6.7个F1点
BWS with 36N元组达到50.6 F1，超越有监督BERT的49.6
错误分析显示93.3%为假阳性，主要来自隐喻表达（41%）、功能性动作（42%）和无动作身体部位引用（17%）

亮点与洞察¶

反直觉发现: 简化日常语言的提示比技术定义的提示效果更好（F1提升近30点），说明LLM在理解领域术语时存在显著困难
比较优于分类: BWS通过比较机制绕过了LLM直接分类时的不稳定性，是一种巧妙的工程方案
小模型潜力: CoT+简化提示使8B参数模型接近70B效果，展示了提示工程的巨大价值
数据集价值: CHEER-Ekman填补了具身情感细粒度分类的空白

局限性/可改进方向¶

数据集仅1350句，规模较小，可能存在正样本偏差
简化提示可能导致对特定措辞的过拟合，忽略更微妙的隐喻表达
BWS高元组数量带来显著计算开销，可扩展性受限
受限于context window，未能实现few-shot设置
可探索更细粒度的情绪分类体系（如27类情绪）

评分¶

维度	评分
新颖性	⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
价值	⭐⭐⭐