跳转至

Exploring Persona Sentiment Sensitivity in Personalized Dialogue Generation

会议: ACL 2025
arXiv: 2502.11423
代码: https://github.com/imsongpasimin/PesonaSensitivity
领域: 文本生成
关键词: 个性化对话, 人设情感, LLM敏感性, 对话质量, 情感感知提示

一句话总结

大规模分析 LLM 对人设情感极性的敏感性,发现负面人设导致过度强调人设属性和对话矛盾、弱/中性人设产生低质量对话,提出结合逐轮生成、人设排序和情感感知提示的对话生成框架来缓解这些问题。

研究背景与动机

  1. 领域现状:个性化对话系统通过将用户人设嵌入 LLM 的系统提示来生成个性化回复,已取得显著进展。
  2. 现有痛点:LLM 对上下文情感极性高度敏感,但人设情感如何影响对话质量研究不足。直觉上,负面人设(如"我讨厌运动")应该和正面人设一样容易嵌入对话,但实际并非如此。
  3. 核心矛盾:负面人设对话倾向于过度强调人设属性(如反复提到"我讨厌…"),正面人设则能选择性融入——LLM 处理正负情感的能力不对称。
  4. 本文要解决什么? 系统分析人设情感极性对对话质量的影响机制,并提出缓解策略。
  5. 切入角度:构造极性化的人设 profile(纯正面/纯负面/混合),大量生成对话后用多种指标分析。
  6. 核心idea一句话:LLM 对负面人设过度敏感,需要情感感知的对话生成策略来平衡。

方法详解

整体框架

基于 ConvAI2 数据集,用情感分类器提取极性化人设句子(置信度>0.99),组合为正面/负面/混合 profile各 10K 个,用 LLM 生成大量对话后分析质量差异。针对发现的问题,提出三组件框架。

关键设计

  1. 极性化人设构造:
  2. 做什么:构建不同情感极性的用户画像
  3. 核心思路:用 DistilBERT 情感分类器筛选 ConvAI2 中的人设句子——2691 正面、1006 负面、2429 中性。组合时用 NLI 模型检测矛盾,确保同一 profile 内无冲突
  4. 关键发现:17% 的人设天然是负面的——这不是人为构造的极端场景

  5. 大规模对话分析:

  6. 做什么:量化不同极性人设对对话质量的影响
  7. 核心发现:

    • 负面人设对话:人设属性过度出现、矛盾增多、连贯性下降
    • 正面人设对话:选择性融入人设、对话自然流畅
    • 弱/中性人设:对话质量最低——模型不确定如何处理中性信息
  8. 情感感知对话生成框架:

  9. 逐轮生成策略: 逐轮交替生成用户和系统回复,而非一次性生成整段对话
  10. Profile排序机制: 将中性/弱情感人设放在对话早期,正面人设放在后期——先建立基础再融入亮点
  11. 情感感知提示: 在提示中明确指示"注意负面或中性情感的人设,避免过度强调"
  12. 设计动机:综合缓解负面人设过度强调和弱人设低质量的问题

损失函数 / 训练策略

  • 无需训练——纯分析+提示工程方法
  • 使用 Llama-3.1-70B-Instruct 生成对话
  • 评估指标:人设一致性、对话连贯性、矛盾率等

实验关键数据

分析发现

对话类型 人设出现率 矛盾率 连贯性
正面+正面 适中
负面+负面 过高
弱+弱 最低
混合

缓解效果

方法 改进 说明
+ 逐轮生成 连贯性提升 避免一次性规划的不一致
+ Profile排序 负面对话质量提升 将弱人设前置减少后期矛盾
+ 情感提示 过度强调问题缓解 显式引导模型关注负面人设处理
三者组合 最佳 综合效果

关键发现

  • LLM 对负面人设的处理存在系统性偏差——倾向于"放大"负面属性而非自然融入
  • 弱/中性人设产生最低质量对话——模型不确定这些信息的重要性
  • 人设排序(context ordering)对对话质量有显著影响——不只是内容重要,顺序也重要
  • 情感感知提示有效但简单——说明 LLM 本身有能力处理,只是缺乏引导

亮点与洞察

  • 揭示了 LLM 处理正/负情感信息的不对称性——这是个性化系统需要注意的重要偏差。
  • "弱人设更难用"是反直觉但重要的发现——不是所有人设信息都同等容易融入对话。
  • Profile 排序策略简单实用——仅调整人设描述的顺序即可改善质量。

局限性 / 可改进方向

  • 仅在英语 ConvAI2 数据集上验证
  • 人设极性由自动分类器决定,可能有噪声
  • 缓解策略是提示工程级别,未探索训练级别的解决方案

相关工作与启发

  • vs PersonaChat 系列工作: 之前关注人设一致性(是否使用了人设信息),本文关注人设情感如何影响质量
  • vs LLM情感敏感性研究: 之前研究输入情感对模型输出的影响,本文聚焦到对话系统的人设维度

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统研究人设情感极性对对话质量的影响,正/负/弱三类对比分析设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 大规模生成(10K profiles)+多指标自动分析+缓解策略验证+多维度消融
  • 写作质量: ⭐⭐⭐⭐ 研究问题驱动(RQ1-RQ3 层层递进),发现有层次且与心理学/社会学背景呼应
  • 价值: ⭐⭐⭐⭐ 对个性化对话系统设计有实用指导——不同情感极性的人设需要不同处理策略,Profile 排序是零成本的品质提升手段