ReflectDiffu: Reflect between Emotion-intent Contagion and Mimicry for Empathetic Response Generation via a RL-Diffusion Framework¶

会议: ACL 2025
arXiv: 2409.10289
代码: 无
领域: 文本生成
关键词: 共情对话, 情感传染, 意图模仿, 扩散模型, 强化学习

一句话总结¶

提出轻量级共情对话框架 ReflectDiffu，融合情感传染（捕捉情绪）、意图二次机制（Exploring-Sampling-Correcting将情绪映射为行动意图）和扩散模型生成，在相关性、可控性和信息量上全面超越现有基线和 Llama-3.1-8B。

领域现状：共情对话生成需要识别情感状态并产生适当的情感回复。现有方法要么依赖外部知识增强（常识推理、因果推断），要么使用 LLM+CoT，但前者可控性差，后者计算开销大。
现有痛点：忽略了情感（emotion）和意图（intent）之间的内在互动机制——心理学中的情感传染和共情模仿理论指出，共情行为是"感受对方情绪→产生意图→执行行动"的链条。
核心矛盾：轻量级模型缺乏深层的情感-意图映射能力，LLM 有能力但太重。如何让小模型也能做好情感-意图的反射性映射？
本文要解决什么？ 设计心理学启发的轻量框架，通过反射机制将情感决策转化为精确的意图行动。
切入角度：将社会学中的情感传染和共情模仿理论操作化为计算模块——情感传染→感知对方情绪；意图模仿→将情绪映射为回复意图。
核心idea一句话：用情感传染感知情绪，用RL引导的意图二次机制决定行动，用扩散模型生成回复。

三个核心组件：(1) 情感模仿模块——用情感传染增强情感感知，用情感原因掩码定位关键元素；(2) 意图二次机制——Exploring(探索意图空间)-Sampling(采样意图)-Correcting(RL修正)；(3) 扩散解码器——在意图引导下生成回复。

情感传染编码器:
做什么：捕捉对话中的情感传递过程
核心思路：用情感原因标注器（ERA）挖掘文本中的情感原因，生成推理掩码；用对比专家（Contrastive-Experts）做细粒度情感分类
设计动机：先理解"为什么有这个情绪"再决定"怎么回应"
意图二次机制（Intent Twice）:
做什么：将识别到的情绪映射为具体的回复意图
核心思路：
- Exploring: 根据情绪组查询预定义的 top-3 意图参考（如"sad"→acknowledging/consoling/encouraging）
- Sampling: 策略网络从参考意图中采样具体意图
- Correcting: RL 奖励信号修正意图选择——奖励 = BARTScore(回复质量) + 情感匹配度
设计动机："二次"意味着先粗后细——先通过情绪-意图映射表缩小范围，再用 RL 精确选择
扩散响应解码器:
做什么：在意图引导下生成共情回复
核心思路：用 DDPM 从噪声中逐步去噪生成回复 token 嵌入，意图向量作为条件输入
设计动机：扩散模型的多样性优于自回归生成，适合需要灵活表达的共情对话

方法	BLEU-1	BARTScore	Acc_emo	Acc_intent	PPL(↓)	Dist-2
CAB (最强基线)	~14	~-3.5	~34	-	~50	~2.0
Llama-3.1-8B CoT	~16	~-3.6	~17	~32	~17	~2.3
ReflectDiffu	~16.3	~-3.3	~41	~80	~35	~3.0

心理学理论驱动的框架设计——将情感传染和共情模仿理论直接操作化为计算模块，有理论根基。不是凭直觉设计模块，而是遵循社会学中已验证的共情机制。
轻量级击败 LLM——证明了领域专用的机制设计可以弥补模型规模的差距。7B 参数级别的 ReflectDiffu 在多个指标上超越 Llama-3.1-8B CoT。
意图二次机制的 Exploring-Sampling-Correcting 设计巧妙——结合了检索（缩小范围到 top-3 意图）、采样（从候选中探索）和 RL（基于奖励修正），层层细化。
扩散模型的多样性优势在共情对话中得到验证——Distinct-2 提升 47.4%，说明扩散去噪过程天然支持多样化的情感表达。
情绪-意图映射表（Table 1）本身具有教育/心理学参考价值。