跳转至

Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks

会议: ACL 2025
arXiv: 2503.00024
代码:
领域: 计算论辩 / 情感与说服力
关键词: argument convincingness, emotional appeal, manipulation check, LLM bias, multilingual analysis

一句话总结

提出一种受心理学操控检验启发的动态框架,利用LLM调节论证的情感强度,系统考察情感对论证说服力的因果影响,发现超过半数情况下人类的说服力判断不受情感变化影响,而当情感有影响时更多是增强而非削弱说服力。

研究背景与动机

  1. 领域现状: 情感呼吁(pathos)是亚里士多德修辞三要素之一,然而NLP社区对"情感与论证说服力"的关系研究不足,情感常被简单视为逻辑谬误。
  2. 现有痛点: 已有研究多为静态分析——比较固定论证对的说服力,缺乏对混淆变量的控制;同时多局限于单一语言/领域。
  3. 核心矛盾: 观测性研究无法区分情感本身的因果效应和其他混淆因素的干扰,导致结论不可靠。
  4. 本文要解决什么: 在控制混淆变量的前提下,量化情感强度变化对论证说服力的动态影响。
  5. 切入角度: 借鉴心理学"操控检验"(manipulation check)范式,将情感强度作为操控变量、说服力作为因变量,通过LLM生成情感增强/减弱版本进行配对比较。
  6. 核心idea一句话: 利用LLM改写论证以系统调控情感强度,并通过锚定配对比较动态观测说服力变化。

方法详解

整体框架

对于每个原始论证对 (E, N)(E为有情感、N为无情感),利用GPT-4o生成三个变体对: - (G⁻(E), N):减弱E的情感 - (E, G⁺(N)):增强N的情感 - (G⁻(E), G⁺(N)):双向调节

比较变体对与原始对的说服力排名变化,判断情感影响类型(一致/正向/负向)。

关键设计

  1. LLM生成情感变体: 使用GPT-4o零样本改写论证,保留核心含义同时调节情感强度。人工评分显示内容相似度平均4.5/5。
  2. 锚定配对比较: 原始对(E,N)作为锚点,比较的是排名变化而非绝对值,减少标注者主观偏好的噪声。
  3. 三类变化判定: Consistent(排名不变)、Positive(情感增强→说服力增强)、Negative(情感增强→说服力下降)。
  4. 多语言多领域: 涵盖英语和德语,跨政治辩论(Hansard、DeuParl)、在线论坛(Dagstuhl)、人工撰写论证(EmoDefabel)等领域。

损失函数 / 训练策略

本文非训练方法,核心是实验设计。关键评估指标: - 一致率(Consistency Rate): 情感变化不影响说服力的比例 - 正向率(Positivity Rate): 情感增强→说服力增强的比例 - 负向率(Negativity Rate): 情感增强→说服力下降的比例

实验关键数据

主实验

数据集 语言 Consistent Positive Negative
Bill_en EN 54.7% 29.3% 16.0%
Hansard_en EN 48.0% 34.7% 17.3%
Dagstuhl_en EN 56.0% 24.7% 19.3%
DeuParl_de DE 50.7% 32.0% 17.3%
EmoDefabel_de DE 58.7% 22.0% 19.3%
平均 - 53.6% 28.5% 17.8%

LLM行为分析

模型 与人类一致率 正向偏好 负向偏好
GPT-4o 最高 偏高 偏低
Claude-3.5 中等 适中 适中
Llama-3-70B 较低 偏高 偏低

关键发现

  • 超过半数情况下,人类说服力判断不受情感强度变化影响
  • 情感对说服力有正向影响的概率(~28.5%)显著大于负向(~17.8%)
  • 政治辩论领域中情感对说服力的正向影响更强(Hansard 34.7%)
  • LLM总体上能镜像人类模式,但在个体层面的细微情感效应捕捉不足
  • 当主题和领域对齐时,英语和德语中情感对说服力的影响模式相似

亮点与洞察

  • 首次将心理学操控检验范式引入NLP论辩分析,提供了因果推断视角
  • 框架设计巧妙:通过变体对比而非直接比较E vs G⁻(E)来避免标注者先验信念的干扰
  • 发现"情感≠谬误",在多数情况下反而增强说服力——这挑战了NLP社区将情感视为fallacy的主流观点
  • LLM改写保持语义一致性的质量很高,验证了LLM作为实验材料生成器的可行性

局限性 / 可改进方向

  • 情感强度仅考虑整体强度,未区分具体情感类型(如愤怒vs同情可能效果相反)
  • LLM生成变体可能引入非情感方面的微妙变化
  • 250个测试实例的规模仍有限,统计效力可进一步提升
  • 仅涵盖英语和德语,其他文化背景下可能有不同结论
  • 评注者数量有限(5人/批次),虽有众包但38%不合格率较高

相关工作与启发

  • Habernal & Gurevych (2016b): 发现情感方面正向贡献于说服力,但为静态分析
  • Greschner & Klinger (2024): 发现joy/pride增强说服力、anger削弱,本文扩展了该发现
  • LLM认知偏差研究: Lampinen等(2024)、Echterhoff等(2024)关于LLM仿人偏差的工作提供了分析框架
  • 启发:LLM评估系统(如论证质量评判器)需要考虑情感偏差的影响

评分

  • 新颖性: ⭐⭐⭐⭐ 操控检验框架在NLP中属首次应用,但核心思路相对直接
  • 实验充分度: ⭐⭐⭐⭐ 多语言多领域、人工+众包标注、11个LLM对比,覆盖面广
  • 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,实验设计的心理学背景阐述充分
  • 价值: ⭐⭐⭐⭐ 为论辩分析提供了新的实验范式,但应用场景略窄