Enhancing Hyperbole and Metaphor Detection with Their Bidirectional Dynamic Interaction and Emotion Knowledge¶

会议: ACL 2025 (acl-long.23)
arXiv: 2506.15504
代码: 无
领域: NLP / 修辞检测 / 情感分析
关键词: 夸张检测, 隐喻检测, 情感引导, 双向动态交互, LLM推理

一句话总结¶

提出 EmoBi 框架，通过情感分析→情感引导的域映射→双向动态交互三阶段 prompting 流程，利用 LLM 挖掘夸张和隐喻背后的情感线索及二者的互促关系，在四个数据集上大幅超越 SoTA（TroFi 上夸张检测 F1 提升 28.1%，HYPO-L 上隐喻检测 F1 提升 23.1%）。

背景与动机¶

夸张（hyperbole）和隐喻（metaphor）是自然语言中最常见的修辞手法，对情感分析、对话系统等 NLP 任务至关重要。然而现有方法存在两个核心缺陷：

忽视情感因素：大多数方法只关注词汇和句法层面的表层特征，而修辞手法的使用往往是情感驱动的——不理解"屠夫的刀"背后的残忍情感，就很难判断"时间是一把屠夫的刀"是隐喻。
忽视夸张与隐喻的互动关系：现有方法要么独立检测二者，要么简单做隐式特征共享（如多任务学习），没有显式建模它们之间的双向促进关系。比如"他的决心如钢铁堡垒"中，隐喻（决心→堡垒）让夸张（极端坚固）更有根基，而夸张又让隐喻映射更生动。

核心问题¶

如何利用情感知识指导夸张和隐喻检测，并建模二者之间的双向动态交互关系，以提升检测精度？

这个问题重要在于：(1) 情感是理解修辞效果的关键桥梁，但此前基本没有工作将情感知识系统性地融入修辞检测；(2) 夸张和隐喻都涉及偏离字面意义来达到表达效果，它们之间存在天然的语义互促关系，但此前的多任务方法只是浅层特征共享，未显式建模这种交互。

方法详解¶

EmoBi 是一个基于 LLM 的多阶段 prompting 框架，不涉及模型微调，而是通过精心设计的 prompt 链引导 LLM 逐步推理。

整体框架¶

输入一个句子，目标是同时预测其夸张标签和隐喻标签。整个流程分为三个阶段：

情感分析 → 获取句子的情感信息
情感引导的域映射 → 基于情感识别源域和目标域
双向动态交互 → 夸张信息指导隐喻检测，隐喻信息指导夸张检测 + 验证机制

每个阶段都通过特定 prompt 调用 LLM，后一阶段的输入包含前一阶段的输出，形成递进式推理链。

关键设计¶

情感分析模块（Emotion Analysis）：用 Prompt1 要求 LLM 分析句子的情感内涵。这一步将表层语言与深层修辞效果连接起来，为后续检测提供情感线索。例如识别出"屠夫的刀"蕴含残忍、无情的情感，就能辅助判断修辞用法。
情感引导的域映射模块（Emotion-Based Domain Mapping）：将句子和情感分析结果一起输入 LLM，通过 Prompt2 要求从情感角度识别源域（source domain）和目标域（target domain），并分析两个域之间的情感联系。源域是修辞表达的概念基础，目标域是语义迁移的目的地——通过定位这两个端点，可以精确审视夸张中的语义放大和隐喻中的跨域映射。
双向动态交互模块（Bidirectional Dynamic Interaction）：这是核心创新。以"隐喻引导夸张检测"为例：先基于情感知识和域映射结果进行隐喻分析，得到隐喻信息；再将隐喻信息与情感、域映射知识一起作为上下文，引导 LLM 判断是否为夸张。反过来，"夸张引导隐喻检测"也是类似流程。其核心洞见是：夸张中的强烈情感和程度变化能为隐喻提供更丰富的语义扩展方向，而隐喻为夸张设定了语义框架和情感基调。
验证机制（Verification Mechanism）：在检测完成后，如果发现识别结果存在不一致或错误，模型会重新评估和调整结果，确保检测的准确性和可靠性。

损失函数 / 训练策略¶

本方法不涉及模型训练或微调，完全基于 LLM 的 in-context reasoning。默认使用 Llama3-8b 作为 backbone LLM，也在 GPT-4o 上验证了效果。

实验关键数据¶

数据集	任务	指标(F1)	EmoBi	MTL-F-RoBERTa (前SoTA)	CoT-based	提升(vs SoTA)
HYPO	夸张	F1	90.8	88.1	83.2	+2.7
HYPO	隐喻	F1	84.5	78.7	77.2	+5.8
HYPO-L	夸张	F1	79.3	68.7	72.8	+10.6
HYPO-L	隐喻	F1	80.3	57.2	72.6	+23.1
LCC	夸张	F1	84.9	65.9	77.5	+19.0
LCC	隐喻	F1	91.3	80.5	83.6	+10.8
TroFi	夸张	F1	84.2	56.1	78.5	+28.1
TroFi	隐喻	F1	76.6	57.3	70.7	+19.3

在 HYPO 数据集上相比基于微调的 SoTA（MTL-F-RoBERTa）提升适中（+2.7/+5.8），但在 TroFi 和 LCC 等数据集上提升巨大（+28.1/+19.0），说明 LLM 推理在跨域迁移能力上远超小模型微调方案。

消融实验要点¶

变体	HYPO (Hyp/Met)	HYPO-L (Hyp/Met)	LCC (Hyp/Met)	TroFi (Hyp/Met)
完整模型	90.8 / 84.5	79.3 / 80.3	84.9 / 91.3	84.2 / 76.6
w/o 情感分析	-4.6 / -5.1	-4.6 / -5.7	-5.3 / -5.4	-4.4 / -4.4
w/o 双向交互	-3.4 / -3.8	-3.5 / -5.0	-4.0 / -4.1	-3.6 / -3.0
w/o 域映射	-2.6 / -3.3	-2.7 / -4.3	-3.5 / -3.2	-2.8 / -2.7
w/o 验证机制	-1.5 / -1.4	-1.2 / -1.9	-1.5 / -1.4	-1.3 / -1.4

情感分析模块贡献最大：去掉后 F1 平均下降 4.4-5.7，尤其在隐喻检测上影响最显著，验证了情感是理解修辞的关键
双向交互模块贡献第二：去掉后下降 3.0-5.0，证明夸张和隐喻的互促关系对检测有实质性帮助
域映射下降第三：去掉后下降 2.6-4.3，源域/目标域识别对语义理解有辅助作用
验证机制影响最小但稳定：每项下降 1.2-1.9，说明结果校验有一致的正向贡献

亮点 / 我学到了什么¶

情感作为修辞理解的桥梁：这一洞见非常有说服力——修辞手法本质上是为了传递特定情感，从情感出发理解修辞是很自然的思路。这种"emotion-first"的设计范式可以迁移到讽刺检测、反语理解等任务。
双向交互的思路：不是简单的多任务共享表示，而是让一个任务的检测结果显式作为另一个任务的输入上下文，实现信息的定向流动。这种"task A informs task B, and vice versa"的设计可以推广到其他存在语义关联的多任务场景。
纯 prompting 方案超越微调方案：在 TroFi 上 F1 从 56.1 提升到 84.2 (+28.1)，纯靠 prompt 工程就大幅超越了微调的 BERT/RoBERTa 模型，说明在修辞理解这类需要深层语义推理的任务上，LLM 的零样本能力配合合理的推理链设计可以远超传统微调。
递进式 prompt 链设计：emotion → domain mapping → bidirectional detection，每一步的输出成为下一步的输入，形成信息逐步丰富的推理链。比 CoT 更有针对性，可复用到其他需要多步推理的任务。

局限性 / 可改进方向¶

误差传播：作者承认多步推理存在错误级联问题——如果情感分析出错，后续域映射和检测都会受影响
情感分析质量不稳定：当前情感模块可能无法准确捕捉所有微妙的情感，尤其是复杂或混合情感的场景
计算开销大：每个句子需要多次调用 LLM（情感分析、域映射、两个方向的交互检测、验证），推理成本远高于微调小模型
缺少代码和复现细节：论文没有公开代码，prompt 的具体措辞和验证机制的实现细节不够充分
数据集规模较小：四个数据集都是学术基准，缺少在大规模真实场景下的验证
仅限英文：未在多语言场景下验证，修辞手法高度依赖语言和文化

与相关工作的对比¶

vs Badathala et al. (2023) MTL-F：前 SoTA，基于 BERT/RoBERTa 的多任务微调方法，只做了浅层特征共享。EmoBi 从情感驱动和显式交互两个维度全面超越，尤其在 TroFi (+28.1 F1) 和 HYPO-L (+23.1 F1) 上差距悬殊，说明微调小模型在修辞理解上存在天花板。
vs CoT prompting：标准 CoT 只是让 LLM "step by step" 思考，缺乏针对修辞任务的结构化引导。EmoBi 的三阶段设计（情感→域映射→交互检测）为 LLM 提供了领域特定的推理框架，效果显著优于通用 CoT。
vs Tian et al. (2024) 域挖掘方法：专注于隐喻检测中的可解释域对挖掘，但没有利用情感信息，也没有建模夸张-隐喻交互。EmoBi 同时覆盖了两个维度。

启发与关联¶

对 NLP 中多修辞手法联合理解的启示：夸张和隐喻的双向交互思路可以扩展到讽刺、反语、委婉等更多修辞手法的联合检测
情感驱动的语义理解范式：将情感分析作为深层语义理解的前置步骤，而非独立任务，这种设计思路在 stance detection、hate speech detection 等任务中也可能有效
LLM 推理链设计方法论：EmoBi 展示了一种针对特定任务定制 prompt 链的方法论——先分析支撑性知识（情感、域映射），再利用这些知识进行目标检测，而非直接让 LLM 给出答案

评分¶

新颖性: ⭐⭐⭐⭐ 情感引导+双向动态交互的框架设计有创新性，但整体是 prompt 工程的组合
实验充分度: ⭐⭐⭐⭐ 四个数据集、消融实验、模型规模/种类对比、case study 较为全面
写作质量: ⭐⭐⭐⭐ 动机论述清晰，方法描述条理，但 prompt 细节和验证机制的描述不够具体
对我的价值: ⭐⭐⭐ 情感引导和双向交互的设计思路有迁移价值，但具体任务领域偏窄