跳转至

ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework

会议: ACL 2025
arXiv: 2409.10289
代码: 无
领域: 文本生成
关键词: 共情对话, 情感传染, 意图模仿, 扩散模型, 强化学习

一句话总结

提出轻量级共情对话框架 ReflectDiffu,融合情感传染(捕捉情绪)、意图二次机制(Exploring-Sampling-Correcting将情绪映射为行动意图)和扩散模型生成,在相关性、可控性和信息量上全面超越现有基线和 Llama-3.1-8B。

研究背景与动机

  1. 领域现状:共情对话生成需要识别情感状态并产生适当的情感回复。现有方法要么依赖外部知识增强(常识推理、因果推断),要么使用 LLM+CoT,但前者可控性差,后者计算开销大。
  2. 现有痛点:忽略了情感(emotion)和意图(intent)之间的内在互动机制——心理学中的情感传染和共情模仿理论指出,共情行为是"感受对方情绪→产生意图→执行行动"的链条。
  3. 核心矛盾:轻量级模型缺乏深层的情感-意图映射能力,LLM 有能力但太重。如何让小模型也能做好情感-意图的反射性映射?
  4. 本文要解决什么? 设计心理学启发的轻量框架,通过反射机制将情感决策转化为精确的意图行动。
  5. 切入角度:将社会学中的情感传染和共情模仿理论操作化为计算模块——情感传染→感知对方情绪;意图模仿→将情绪映射为回复意图。
  6. 核心idea一句话:用情感传染感知情绪,用RL引导的意图二次机制决定行动,用扩散模型生成回复。

方法详解

整体框架

三个核心组件:(1) 情感模仿模块——用情感传染增强情感感知,用情感原因掩码定位关键元素;(2) 意图二次机制——Exploring(探索意图空间)-Sampling(采样意图)-Correcting(RL修正);(3) 扩散解码器——在意图引导下生成回复。

关键设计

  1. 情感传染编码器:
  2. 做什么:捕捉对话中的情感传递过程
  3. 核心思路:用情感原因标注器(ERA)挖掘文本中的情感原因,生成推理掩码;用对比专家(Contrastive-Experts)做细粒度情感分类
  4. 设计动机:先理解"为什么有这个情绪"再决定"怎么回应"

  5. 意图二次机制(Intent Twice):

  6. 做什么:将识别到的情绪映射为具体的回复意图
  7. 核心思路:
    • Exploring: 根据情绪组查询预定义的 top-3 意图参考(如"sad"→acknowledging/consoling/encouraging)
    • Sampling: 策略网络从参考意图中采样具体意图
    • Correcting: RL 奖励信号修正意图选择——奖励 = BARTScore(回复质量) + 情感匹配度
  8. 设计动机:"二次"意味着先粗后细——先通过情绪-意图映射表缩小范围,再用 RL 精确选择

  9. 扩散响应解码器:

  10. 做什么:在意图引导下生成共情回复
  11. 核心思路:用 DDPM 从噪声中逐步去噪生成回复 token 嵌入,意图向量作为条件输入
  12. 设计动机:扩散模型的多样性优于自回归生成,适合需要灵活表达的共情对话

损失函数 / 训练策略

  • 多任务训练:情感分类 + 意图预测 + RL奖励 + 扩散去噪
  • 用 EmpatheticDialogues 数据集训练
  • 自标注情绪-意图映射表(统计每种情绪下 top-3 常见意图)

实验关键数据

主实验

方法 BLEU-1 BARTScore Acc_emo Acc_intent PPL(↓) Dist-2
CAB (最强基线) ~14 ~-3.5 ~34 - ~50 ~2.0
Llama-3.1-8B CoT ~16 ~-3.6 ~17 ~32 ~17 ~2.3
ReflectDiffu ~16.3 ~-3.3 ~41 ~80 ~35 ~3.0

消融实验

配置 效果 说明
w/o ERA 情感准确率下降 情感原因标注器重要
w/o C-Experts 情感分类退化 对比专家模块必要
w/o Intent Twice 意图准确率和相关性大幅下降 核心组件
w/o EMU (扩散) 多样性下降 扩散模型增加多样性

关键发现

  • ReflectDiffu 在意图准确率上达 80.32%——远超所有基线,说明意图二次机制非常有效
  • 比 Llama-3.1-8B CoT 在情感准确率上高 2.4 倍——轻量模型+正确机制 > 大模型+通用提示
  • 扩散模型贡献了 47.4% 的 Dist-2 提升——多样性优势明显
  • 人工评估在共情、相关性、流畅性三维度全面胜出

亮点与洞察

  • 心理学理论驱动的框架设计——将情感传染和共情模仿理论直接操作化为计算模块,有理论根基。不是凭直觉设计模块,而是遵循社会学中已验证的共情机制。
  • 轻量级击败 LLM——证明了领域专用的机制设计可以弥补模型规模的差距。7B 参数级别的 ReflectDiffu 在多个指标上超越 Llama-3.1-8B CoT。
  • 意图二次机制的 Exploring-Sampling-Correcting 设计巧妙——结合了检索(缩小范围到 top-3 意图)、采样(从候选中探索)和 RL(基于奖励修正),层层细化。
  • 扩散模型的多样性优势在共情对话中得到验证——Distinct-2 提升 47.4%,说明扩散去噪过程天然支持多样化的情感表达。
  • 情绪-意图映射表(Table 1)本身具有教育/心理学参考价值。

局限性 / 可改进方向

  • 情绪-意图映射表是预定义的且仅覆盖 top-3,可能不够灵活——某些情境下最佳意图可能超出映射范围
  • 仅在 EmpatheticDialogues 单一数据集上验证,跨领域/跨文化泛化未知
  • 扩散模型推理速度慢于自回归模型——多步去噪增加延迟
  • ERA(情感原因标注器)的训练数据质量直接影响系统表现——标注偏差会传播
  • 未与最新的 ChatGPT/GPT-4 级别模型对比——仅比较了 Llama-3.1-8B

相关工作与启发

  • vs CAB/MISC: 这些方法用外部知识增强但不建模情感-意图内在联系;ReflectDiffu 用反射机制做显式映射
  • vs LLM+CoT: LLM 靠通用能力做共情但不可控;ReflectDiffu 通过意图机制精确控制

评分

  • 新颖性: ⭐⭐⭐⭐ 心理学启发+RL+扩散的独特组合
  • 实验充分度: ⭐⭐⭐⭐ 自动+人工评估+消融,但仅一个数据集
  • 写作质量: ⭐⭐⭐ 方法复杂,术语较多,可读性一般
  • 价值: ⭐⭐⭐⭐ 对共情对话的有意义贡献