Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks¶

会议: ACL 2025
arXiv: 2503.00024
代码: 有
领域: 计算论辩 / 情感与说服力
关键词: argument convincingness, emotional appeal, manipulation check, LLM bias, multilingual analysis

一句话总结¶

提出一种受心理学操控检验启发的动态框架，利用LLM调节论证的情感强度，系统考察情感对论证说服力的因果影响，发现超过半数情况下人类的说服力判断不受情感变化影响，而当情感有影响时更多是增强而非削弱说服力。

研究背景与动机¶

领域现状: 情感呼吁（pathos）是亚里士多德修辞三要素之一，然而NLP社区对"情感与论证说服力"的关系研究不足，情感常被简单视为逻辑谬误。
现有痛点: 已有研究多为静态分析——比较固定论证对的说服力，缺乏对混淆变量的控制；同时多局限于单一语言/领域。
核心矛盾: 观测性研究无法区分情感本身的因果效应和其他混淆因素的干扰，导致结论不可靠。
本文要解决什么: 在控制混淆变量的前提下，量化情感强度变化对论证说服力的动态影响。
切入角度: 借鉴心理学"操控检验"（manipulation check）范式，将情感强度作为操控变量、说服力作为因变量，通过LLM生成情感增强/减弱版本进行配对比较。
核心idea一句话: 利用LLM改写论证以系统调控情感强度，并通过锚定配对比较动态观测说服力变化。

方法详解¶

整体框架¶

对于每个原始论证对 (E, N)（E为有情感、N为无情感），利用GPT-4o生成三个变体对： - (G⁻(E), N)：减弱E的情感 - (E, G⁺(N))：增强N的情感 - (G⁻(E), G⁺(N))：双向调节

比较变体对与原始对的说服力排名变化，判断情感影响类型（一致/正向/负向）。

关键设计¶

LLM生成情感变体: 使用GPT-4o零样本改写论证，保留核心含义同时调节情感强度。人工评分显示内容相似度平均4.5/5。
锚定配对比较: 原始对(E,N)作为锚点，比较的是排名变化而非绝对值，减少标注者主观偏好的噪声。
三类变化判定: Consistent（排名不变）、Positive（情感增强→说服力增强）、Negative（情感增强→说服力下降）。
多语言多领域: 涵盖英语和德语，跨政治辩论（Hansard、DeuParl）、在线论坛（Dagstuhl）、人工撰写论证（EmoDefabel）等领域。

损失函数 / 训练策略¶

本文非训练方法，核心是实验设计。关键评估指标： - 一致率（Consistency Rate）: 情感变化不影响说服力的比例 - 正向率（Positivity Rate）: 情感增强→说服力增强的比例 - 负向率（Negativity Rate）: 情感增强→说服力下降的比例

实验关键数据¶

主实验¶

数据集	语言	Consistent	Positive	Negative
Bill_en	EN	54.7%	29.3%	16.0%
Hansard_en	EN	48.0%	34.7%	17.3%
Dagstuhl_en	EN	56.0%	24.7%	19.3%
DeuParl_de	DE	50.7%	32.0%	17.3%
EmoDefabel_de	DE	58.7%	22.0%	19.3%
平均	-	53.6%	28.5%	17.8%

LLM行为分析¶

模型	与人类一致率	正向偏好	负向偏好
GPT-4o	最高	偏高	偏低
Claude-3.5	中等	适中	适中
Llama-3-70B	较低	偏高	偏低

关键发现¶

超过半数情况下，人类说服力判断不受情感强度变化影响
情感对说服力有正向影响的概率（~28.5%）显著大于负向（~17.8%）
政治辩论领域中情感对说服力的正向影响更强（Hansard 34.7%）
LLM总体上能镜像人类模式，但在个体层面的细微情感效应捕捉不足
当主题和领域对齐时，英语和德语中情感对说服力的影响模式相似

亮点与洞察¶

首次将心理学操控检验范式引入NLP论辩分析，提供了因果推断视角
框架设计巧妙：通过变体对比而非直接比较E vs G⁻(E)来避免标注者先验信念的干扰
发现"情感≠谬误"，在多数情况下反而增强说服力——这挑战了NLP社区将情感视为fallacy的主流观点
LLM改写保持语义一致性的质量很高，验证了LLM作为实验材料生成器的可行性

局限性 / 可改进方向¶

情感强度仅考虑整体强度，未区分具体情感类型（如愤怒vs同情可能效果相反）
LLM生成变体可能引入非情感方面的微妙变化
250个测试实例的规模仍有限，统计效力可进一步提升
仅涵盖英语和德语，其他文化背景下可能有不同结论
评注者数量有限（5人/批次），虽有众包但38%不合格率较高

评分¶

新颖性: ⭐⭐⭐⭐ 操控检验框架在NLP中属首次应用，但核心思路相对直接
实验充分度: ⭐⭐⭐⭐ 多语言多领域、人工+众包标注、11个LLM对比，覆盖面广
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，实验设计的心理学背景阐述充分
价值: ⭐⭐⭐⭐ 为论辩分析提供了新的实验范式，但应用场景略窄