Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation¶

会议: ACL 2025
arXiv: 2502.11423
代码: GitHub
领域: NLP生成 / 对话系统 / 人物画像
关键词: Personalized Dialogue, Persona Sentiment, Polarity Sensitivity, LLM Robustness, ConvAI2

一句话总结¶

大规模分析发现 LLM 生成的个性化对话质量对人物画像的情感极性高度敏感——负面画像导致过度强调人设引发矛盾，正面画像则选择性融入人设产生更高质量对话——基于此提出结合轮次生成、画像排序和情感感知提示的改进方法。

研究背景与动机¶

现有痛点：个性化对话系统通过将用户人设（persona）嵌入系统提示来生成个性化回复，但人设的情感极性（正面/负面/中性）对对话质量的影响被严重忽视。现有研究集中在如何更好地融入人设，却没有考虑人设本身的情感特征对 LLM 行为的影响。
核心矛盾：LLM 对上下文情感极性具有高度敏感性（已有研究证实），但将此特性映射到人设对话场景时，出现反直觉现象：负面人设的对话一致性分数（C score）反而更高，但矛盾率也更高——即 LLM 在强行融入负面人设时制造了更多自相矛盾。本质问题是 LLM 不会"选择性忽略"不利于连贯性的人设信息。
本文要解决：(1) RQ1：LLM 是否对用户的情感极性敏感？量化不同极性配对的对话质量差异；(2) RQ2：如果敏感，如何使 LLM 对极性更鲁棒？设计不改变人设内容但提升对话质量的方法。
切入角度：作者受心理学研究启发——对话质量随参与者性格特质变化，将 ConvAI2 的人设按情感分类器（置信度 >0.99）分为正面（2691 条）、负面（1006 条）和中性（2429 条），约 60% 人设自然带有极性（17% 负面），说明这不是边角案例而是普遍现象。

方法详解¶

整体框架¶

研究分两阶段：(1) 诊断阶段——用 4 个 LLM × 5 种配对 × 8 个指标生成并评估约 58K 对话，全面量化极性敏感性；(2) 治疗阶段——提出三种缓解策略并验证效果。

关键设计¶

极化用户画像构建：
- 功能：构建情感极性明确的用户画像，避免混淆因素
- 核心思路：使用 distilbert-base-uncased-finetuned-sst-2-english 对 ConvAI2 每条人设进行情感分类，仅保留置信度 >0.99 的作为极化人设。用 NLI 模型（nli-deberta-v3-large）检测矛盾，迭代构建 K 条人设的无矛盾画像。生成 10K 画像 × 3 类型（正面/负面/混合），构建 5 种配对（Original/Negative/Positive/Mixed/Opposite），每种 3K 对
- 设计动机：60% 的 ConvAI2 人设自然带有极性，说明极性不是人为构造的边角案例
多维度评估体系：
- 功能：全面衡量对话一致性和连贯性
- 核心思路：一致性指标——C score（NLI 蕴含分）、Contradiction Ratio（矛盾占比）、Perplexity Gap（有无人设的 PPL 差）、G-eval。连贯性指标——Perplexity、Q-DCE、PairEval（LLaMA-2 微调对比评估）、G-eval。还进行了人类评估（3 名标注者 × 40 样本/配置）
- 设计动机：单一指标无法捕捉极性影响的多面性，C score 高但矛盾率也高说明"一致性"指标需要更细致的解读
极性鲁棒性改进方法：
- 功能：使 LLM 在各种极性画像下生成更均匀高质量的对话
- 核心思路：(a) 轮次生成——每次只用一个用户画像生成一轮回复，避免双人设极性冲突，使用 3B 参数更小模型即可；(b) 画像排序——根据置信分将人设排序，中性/弱情感在前、正面在后，利用 LLM 对 prompt 开头内容的偏好；(c) 情感感知提示——添加简短指令提醒模型注意负面/中性情感人设
- 设计动机：修改人设内容不可取，因此从生成策略和 prompt 工程角度入手

训练策略¶

不涉及模型训练，所有实验基于开源 LLM 的零样本推理（greedy decoding、temperature=0）。

实验关键数据¶

主实验 — 极性配对对对话质量的影响¶

模型	配对	C score ↑	Contd. ↓	Perp. ↓	PairEval ↑
Qwen-2.5-7B	Positive	0.452	8.84	7.04	2.75
Qwen-2.5-7B	Negative	0.520	13.48	7.36	2.67
Qwen-2.5-7B	Mixed	0.404	12.99	7.09	2.70
Qwen-2.5-7B	Opposite	0.409	12.58	7.13	2.67
Ministral-8B	Positive	0.595	5.78	5.80	2.67
Ministral-8B	Negative	0.778	9.93	7.27	2.61

人类评估结果¶

配对	一致性 (1-3)	连贯性 (1-3)
Original	2.36	2.01
Negative	2.40	2.12
Positive	2.51	2.30

极性强度 — U 型趋势¶

极性等级	C score 趋势	PairEval 趋势
强负面 (0.0-0.1)	中高	中高
中性 (0.4-0.6)	最低	最低
强正面 (0.9-1.0)	最高	最高
强正面 vs 最弱 (LLaMA)	7x 提升	—
正面 vs 负面 Coherence 差 (Qwen)	—	+0.3

关键发现¶

LLM 对极性高度敏感：Positive 配对在几乎所有模型和指标上表现最好，Negative 配对 C score 高但矛盾率显著更高
负面人设导致"过度融入"：模型高频引用负面人设特征，蕴含和矛盾同时上升，牺牲连贯性
U 型质量分布：强极性（正/负）人设的对话质量均优于中性/弱情感人设，强正面最优
Opposite 配对退化：正面+负面配对时正面优势完全消失
人类评估验证：三组 Human Eval 趋势与自动指标一致

亮点与洞察¶

揭示了被忽视的对话质量因素：此前研究聚焦"如何更好融入人设"，本文发现"人设本身的情感特征"同样关键。提示我们在构建人设数据集时应考虑情感分布平衡
U 型发现：强极性（无论正负）优于中性的发现出人意料，说明 LLM 更擅长处理情感明确的输入
轻量级解决方案：不需重训模型，仅通过 prompt 排序和指令调整即可改善，实用价值高

局限性¶

实验仅使用 7B-9B 参数模型，更大模型是否同样敏感未知
ConvAI2 为英文数据集，极性敏感性在其他语言中的表现未探索
情感分类器阈值 0.99 较严格，"中性"人设中可能包含微弱情感
联合生成 vs 轮次生成的对比受模型大小差异（8B vs 3B）影响
缺少实际部署场景的 A/B 测试验证

评分¶

新颖性: 8/10 — 首次系统研究人设情感极性对 LLM 对话的影响
技术深度: 6/10 — 主要是大规模实验分析，解决方案较简单
实验充分度: 9/10 — 4 模型 × 5 配对 × 8 指标 + 人类评估 + 极性强度分析
清晰度: 8/10 — 研究问题清晰，实验设计逻辑严谨
总分: 7.5/10