Do Emotions Really Affect Argument Convincingness? A Dynamic Approach with LLM-based Manipulation Checks¶
会议: ACL 2025
arXiv: 2503.00024
代码: 有
领域: 计算论辩 / 情感与说服力
关键词: argument convincingness, emotional appeal, manipulation check, LLM bias, multilingual analysis
一句话总结¶
提出一种受心理学操控检验启发的动态框架,利用LLM调节论证的情感强度,系统考察情感对论证说服力的因果影响,发现超过半数情况下人类的说服力判断不受情感变化影响,而当情感有影响时更多是增强而非削弱说服力。
研究背景与动机¶
- 领域现状: 情感呼吁(pathos)是亚里士多德修辞三要素之一,然而NLP社区对"情感与论证说服力"的关系研究不足,情感常被简单视为逻辑谬误。
- 现有痛点: 已有研究多为静态分析——比较固定论证对的说服力,缺乏对混淆变量的控制;同时多局限于单一语言/领域。
- 核心矛盾: 观测性研究无法区分情感本身的因果效应和其他混淆因素的干扰,导致结论不可靠。
- 本文要解决什么: 在控制混淆变量的前提下,量化情感强度变化对论证说服力的动态影响。
- 切入角度: 借鉴心理学"操控检验"(manipulation check)范式,将情感强度作为操控变量、说服力作为因变量,通过LLM生成情感增强/减弱版本进行配对比较。
- 核心idea一句话: 利用LLM改写论证以系统调控情感强度,并通过锚定配对比较动态观测说服力变化。
方法详解¶
整体框架¶
对于每个原始论证对 (E, N)(E为有情感、N为无情感),利用GPT-4o生成三个变体对: - (G⁻(E), N):减弱E的情感 - (E, G⁺(N)):增强N的情感 - (G⁻(E), G⁺(N)):双向调节
比较变体对与原始对的说服力排名变化,判断情感影响类型(一致/正向/负向)。
关键设计¶
- LLM生成情感变体: 使用GPT-4o零样本改写论证,保留核心含义同时调节情感强度。人工评分显示内容相似度平均4.5/5。
- 锚定配对比较: 原始对(E,N)作为锚点,比较的是排名变化而非绝对值,减少标注者主观偏好的噪声。
- 三类变化判定: Consistent(排名不变)、Positive(情感增强→说服力增强)、Negative(情感增强→说服力下降)。
- 多语言多领域: 涵盖英语和德语,跨政治辩论(Hansard、DeuParl)、在线论坛(Dagstuhl)、人工撰写论证(EmoDefabel)等领域。
损失函数 / 训练策略¶
本文非训练方法,核心是实验设计。关键评估指标: - 一致率(Consistency Rate): 情感变化不影响说服力的比例 - 正向率(Positivity Rate): 情感增强→说服力增强的比例 - 负向率(Negativity Rate): 情感增强→说服力下降的比例
实验关键数据¶
主实验¶
| 数据集 | 语言 | Consistent | Positive | Negative |
|---|---|---|---|---|
| Bill_en | EN | 54.7% | 29.3% | 16.0% |
| Hansard_en | EN | 48.0% | 34.7% | 17.3% |
| Dagstuhl_en | EN | 56.0% | 24.7% | 19.3% |
| DeuParl_de | DE | 50.7% | 32.0% | 17.3% |
| EmoDefabel_de | DE | 58.7% | 22.0% | 19.3% |
| 平均 | - | 53.6% | 28.5% | 17.8% |
LLM行为分析¶
| 模型 | 与人类一致率 | 正向偏好 | 负向偏好 |
|---|---|---|---|
| GPT-4o | 最高 | 偏高 | 偏低 |
| Claude-3.5 | 中等 | 适中 | 适中 |
| Llama-3-70B | 较低 | 偏高 | 偏低 |
关键发现¶
- 超过半数情况下,人类说服力判断不受情感强度变化影响
- 情感对说服力有正向影响的概率(~28.5%)显著大于负向(~17.8%)
- 政治辩论领域中情感对说服力的正向影响更强(Hansard 34.7%)
- LLM总体上能镜像人类模式,但在个体层面的细微情感效应捕捉不足
- 当主题和领域对齐时,英语和德语中情感对说服力的影响模式相似
亮点与洞察¶
- 首次将心理学操控检验范式引入NLP论辩分析,提供了因果推断视角
- 框架设计巧妙:通过变体对比而非直接比较E vs G⁻(E)来避免标注者先验信念的干扰
- 发现"情感≠谬误",在多数情况下反而增强说服力——这挑战了NLP社区将情感视为fallacy的主流观点
- LLM改写保持语义一致性的质量很高,验证了LLM作为实验材料生成器的可行性
局限性 / 可改进方向¶
- 情感强度仅考虑整体强度,未区分具体情感类型(如愤怒vs同情可能效果相反)
- LLM生成变体可能引入非情感方面的微妙变化
- 250个测试实例的规模仍有限,统计效力可进一步提升
- 仅涵盖英语和德语,其他文化背景下可能有不同结论
- 评注者数量有限(5人/批次),虽有众包但38%不合格率较高
相关工作与启发¶
- Habernal & Gurevych (2016b): 发现情感方面正向贡献于说服力,但为静态分析
- Greschner & Klinger (2024): 发现joy/pride增强说服力、anger削弱,本文扩展了该发现
- LLM认知偏差研究: Lampinen等(2024)、Echterhoff等(2024)关于LLM仿人偏差的工作提供了分析框架
- 启发:LLM评估系统(如论证质量评判器)需要考虑情感偏差的影响
评分¶
- 新颖性: ⭐⭐⭐⭐ 操控检验框架在NLP中属首次应用,但核心思路相对直接
- 实验充分度: ⭐⭐⭐⭐ 多语言多领域、人工+众包标注、11个LLM对比,覆盖面广
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,实验设计的心理学背景阐述充分
- 价值: ⭐⭐⭐⭐ 为论辩分析提供了新的实验范式,但应用场景略窄