跳转至

Enhancing Hyperbole and Metaphor Detection with Their Bidirectional Dynamic Interaction and Emotion Knowledge

会议: ACL 2025 (acl-long.23)
arXiv: 2506.15504
代码: 无
领域: NLP / 修辞检测 / 情感分析
关键词: 夸张检测, 隐喻检测, 情感引导, 双向动态交互, LLM推理

一句话总结

提出 EmoBi 框架,通过情感分析→情感引导的域映射→双向动态交互三阶段 prompting 流程,利用 LLM 挖掘夸张和隐喻背后的情感线索及二者的互促关系,在四个数据集上大幅超越 SoTA(TroFi 上夸张检测 F1 提升 28.1%,HYPO-L 上隐喻检测 F1 提升 23.1%)。

背景与动机

夸张(hyperbole)和隐喻(metaphor)是自然语言中最常见的修辞手法,对情感分析、对话系统等 NLP 任务至关重要。然而现有方法存在两个核心缺陷:

  1. 忽视情感因素:大多数方法只关注词汇和句法层面的表层特征,而修辞手法的使用往往是情感驱动的——不理解"屠夫的刀"背后的残忍情感,就很难判断"时间是一把屠夫的刀"是隐喻。
  2. 忽视夸张与隐喻的互动关系:现有方法要么独立检测二者,要么简单做隐式特征共享(如多任务学习),没有显式建模它们之间的双向促进关系。比如"他的决心如钢铁堡垒"中,隐喻(决心→堡垒)让夸张(极端坚固)更有根基,而夸张又让隐喻映射更生动。

核心问题

如何利用情感知识指导夸张和隐喻检测,并建模二者之间的双向动态交互关系,以提升检测精度?

这个问题重要在于:(1) 情感是理解修辞效果的关键桥梁,但此前基本没有工作将情感知识系统性地融入修辞检测;(2) 夸张和隐喻都涉及偏离字面意义来达到表达效果,它们之间存在天然的语义互促关系,但此前的多任务方法只是浅层特征共享,未显式建模这种交互。

方法详解

EmoBi 是一个基于 LLM 的多阶段 prompting 框架,不涉及模型微调,而是通过精心设计的 prompt 链引导 LLM 逐步推理。

整体框架

输入一个句子,目标是同时预测其夸张标签和隐喻标签。整个流程分为三个阶段:

  1. 情感分析 → 获取句子的情感信息
  2. 情感引导的域映射 → 基于情感识别源域和目标域
  3. 双向动态交互 → 夸张信息指导隐喻检测,隐喻信息指导夸张检测 + 验证机制

每个阶段都通过特定 prompt 调用 LLM,后一阶段的输入包含前一阶段的输出,形成递进式推理链。

关键设计

  1. 情感分析模块(Emotion Analysis):用 Prompt1 要求 LLM 分析句子的情感内涵。这一步将表层语言与深层修辞效果连接起来,为后续检测提供情感线索。例如识别出"屠夫的刀"蕴含残忍、无情的情感,就能辅助判断修辞用法。

  2. 情感引导的域映射模块(Emotion-Based Domain Mapping):将句子和情感分析结果一起输入 LLM,通过 Prompt2 要求从情感角度识别源域(source domain)和目标域(target domain),并分析两个域之间的情感联系。源域是修辞表达的概念基础,目标域是语义迁移的目的地——通过定位这两个端点,可以精确审视夸张中的语义放大和隐喻中的跨域映射。

  3. 双向动态交互模块(Bidirectional Dynamic Interaction):这是核心创新。以"隐喻引导夸张检测"为例:先基于情感知识和域映射结果进行隐喻分析,得到隐喻信息;再将隐喻信息与情感、域映射知识一起作为上下文,引导 LLM 判断是否为夸张。反过来,"夸张引导隐喻检测"也是类似流程。其核心洞见是:夸张中的强烈情感和程度变化能为隐喻提供更丰富的语义扩展方向,而隐喻为夸张设定了语义框架和情感基调。

  4. 验证机制(Verification Mechanism):在检测完成后,如果发现识别结果存在不一致或错误,模型会重新评估和调整结果,确保检测的准确性和可靠性。

损失函数 / 训练策略

本方法不涉及模型训练或微调,完全基于 LLM 的 in-context reasoning。默认使用 Llama3-8b 作为 backbone LLM,也在 GPT-4o 上验证了效果。

实验关键数据

数据集 任务 指标(F1) EmoBi MTL-F-RoBERTa (前SoTA) CoT-based 提升(vs SoTA)
HYPO 夸张 F1 90.8 88.1 83.2 +2.7
HYPO 隐喻 F1 84.5 78.7 77.2 +5.8
HYPO-L 夸张 F1 79.3 68.7 72.8 +10.6
HYPO-L 隐喻 F1 80.3 57.2 72.6 +23.1
LCC 夸张 F1 84.9 65.9 77.5 +19.0
LCC 隐喻 F1 91.3 80.5 83.6 +10.8
TroFi 夸张 F1 84.2 56.1 78.5 +28.1
TroFi 隐喻 F1 76.6 57.3 70.7 +19.3

在 HYPO 数据集上相比基于微调的 SoTA(MTL-F-RoBERTa)提升适中(+2.7/+5.8),但在 TroFi 和 LCC 等数据集上提升巨大(+28.1/+19.0),说明 LLM 推理在跨域迁移能力上远超小模型微调方案。

消融实验要点

变体 HYPO (Hyp/Met) HYPO-L (Hyp/Met) LCC (Hyp/Met) TroFi (Hyp/Met)
完整模型 90.8 / 84.5 79.3 / 80.3 84.9 / 91.3 84.2 / 76.6
w/o 情感分析 -4.6 / -5.1 -4.6 / -5.7 -5.3 / -5.4 -4.4 / -4.4
w/o 双向交互 -3.4 / -3.8 -3.5 / -5.0 -4.0 / -4.1 -3.6 / -3.0
w/o 域映射 -2.6 / -3.3 -2.7 / -4.3 -3.5 / -3.2 -2.8 / -2.7
w/o 验证机制 -1.5 / -1.4 -1.2 / -1.9 -1.5 / -1.4 -1.3 / -1.4
  • 情感分析模块贡献最大:去掉后 F1 平均下降 4.4-5.7,尤其在隐喻检测上影响最显著,验证了情感是理解修辞的关键
  • 双向交互模块贡献第二:去掉后下降 3.0-5.0,证明夸张和隐喻的互促关系对检测有实质性帮助
  • 域映射下降第三:去掉后下降 2.6-4.3,源域/目标域识别对语义理解有辅助作用
  • 验证机制影响最小但稳定:每项下降 1.2-1.9,说明结果校验有一致的正向贡献

亮点 / 我学到了什么

  • 情感作为修辞理解的桥梁:这一洞见非常有说服力——修辞手法本质上是为了传递特定情感,从情感出发理解修辞是很自然的思路。这种"emotion-first"的设计范式可以迁移到讽刺检测、反语理解等任务。
  • 双向交互的思路:不是简单的多任务共享表示,而是让一个任务的检测结果显式作为另一个任务的输入上下文,实现信息的定向流动。这种"task A informs task B, and vice versa"的设计可以推广到其他存在语义关联的多任务场景。
  • 纯 prompting 方案超越微调方案:在 TroFi 上 F1 从 56.1 提升到 84.2 (+28.1),纯靠 prompt 工程就大幅超越了微调的 BERT/RoBERTa 模型,说明在修辞理解这类需要深层语义推理的任务上,LLM 的零样本能力配合合理的推理链设计可以远超传统微调。
  • 递进式 prompt 链设计:emotion → domain mapping → bidirectional detection,每一步的输出成为下一步的输入,形成信息逐步丰富的推理链。比 CoT 更有针对性,可复用到其他需要多步推理的任务。

局限性 / 可改进方向

  • 误差传播:作者承认多步推理存在错误级联问题——如果情感分析出错,后续域映射和检测都会受影响
  • 情感分析质量不稳定:当前情感模块可能无法准确捕捉所有微妙的情感,尤其是复杂或混合情感的场景
  • 计算开销大:每个句子需要多次调用 LLM(情感分析、域映射、两个方向的交互检测、验证),推理成本远高于微调小模型
  • 缺少代码和复现细节:论文没有公开代码,prompt 的具体措辞和验证机制的实现细节不够充分
  • 数据集规模较小:四个数据集都是学术基准,缺少在大规模真实场景下的验证
  • 仅限英文:未在多语言场景下验证,修辞手法高度依赖语言和文化

与相关工作的对比

  • vs Badathala et al. (2023) MTL-F:前 SoTA,基于 BERT/RoBERTa 的多任务微调方法,只做了浅层特征共享。EmoBi 从情感驱动和显式交互两个维度全面超越,尤其在 TroFi (+28.1 F1) 和 HYPO-L (+23.1 F1) 上差距悬殊,说明微调小模型在修辞理解上存在天花板。
  • vs CoT prompting:标准 CoT 只是让 LLM "step by step" 思考,缺乏针对修辞任务的结构化引导。EmoBi 的三阶段设计(情感→域映射→交互检测)为 LLM 提供了领域特定的推理框架,效果显著优于通用 CoT。
  • vs Tian et al. (2024) 域挖掘方法:专注于隐喻检测中的可解释域对挖掘,但没有利用情感信息,也没有建模夸张-隐喻交互。EmoBi 同时覆盖了两个维度。

启发与关联

  • 对 NLP 中多修辞手法联合理解的启示:夸张和隐喻的双向交互思路可以扩展到讽刺、反语、委婉等更多修辞手法的联合检测
  • 情感驱动的语义理解范式:将情感分析作为深层语义理解的前置步骤,而非独立任务,这种设计思路在 stance detection、hate speech detection 等任务中也可能有效
  • LLM 推理链设计方法论:EmoBi 展示了一种针对特定任务定制 prompt 链的方法论——先分析支撑性知识(情感、域映射),再利用这些知识进行目标检测,而非直接让 LLM 给出答案

评分

  • 新颖性: ⭐⭐⭐⭐ 情感引导+双向动态交互的框架设计有创新性,但整体是 prompt 工程的组合
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集、消融实验、模型规模/种类对比、case study 较为全面
  • 写作质量: ⭐⭐⭐⭐ 动机论述清晰,方法描述条理,但 prompt 细节和验证机制的描述不够具体
  • 对我的价值: ⭐⭐⭐ 情感引导和双向交互的设计思路有迁移价值,但具体任务领域偏窄