跳转至

Controlling Politeness in Multi-Turn Dialogues Through Pre-Phrase Augmentation

会议: ACL 2025
领域: 文本生成
关键词: 礼貌控制、多轮对话、前缀短语增强、风格控制、对话生成

一句话总结

本文提出一种基于前缀短语增强(Pre-Phrase Augmentation)的方法,通过在对话生成过程中自动添加礼貌性调控前缀,实现多轮对话中礼貌程度的细粒度控制,同时保持对话内容的连贯性和信息完整性。

研究背景与动机

领域现状:对话系统的礼貌性(politeness)是影响用户体验的重要因素,尤其在客服、医疗咨询、教育等场景中。当前大语言模型生成的对话往往在礼貌程度上缺乏精确控制——要么生硬直接,要么过度客套,难以根据场景需求灵活调整。

现有痛点:现有的风格控制方法主要包括:(1)条件生成——通过 control token 或条件向量控制,但在多轮对话中难以维持一致的礼貌水平;(2)后处理重写——先生成再改写为目标风格,但容易损失信息或引入不连贯;(3)RLHF/微调——有效但成本高且缺乏细粒度控制(只能选"礼貌"或"不礼貌",无法调整程度)。核心问题是在多轮场景下,礼貌性需要随对话进展动态调整(如用户情绪变化时需更礼貌),现有方法缺乏这种动态能力。

核心矛盾:礼貌性控制需要同时满足两个目标:(1)准确传达原始信息内容;(2)符合目标礼貌程度。这两者在某些情况下存在冲突——过于礼貌的表达可能弱化关键信息,而过于直接的表达可能被认为不礼貌。

本文目标:设计一种轻量级的礼貌控制方法,能够在多轮对话中实现连续可调的礼貌程度控制,且不影响生成内容的质量和信息量。

切入角度:作者观察到人类调节礼貌程度时,通常是通过添加前缀短语(如"不好意思"、"如果方便的话"、"请问您是否可以")来实现,而非改变核心内容。受此启发,提出通过学习和插入适当的前缀短语来控制礼貌度。

核心 idea:训练一个前缀短语生成器,根据目标礼貌等级和对话上下文生成合适的礼貌前缀,将其与内容生成解耦,实现不影响信息内容的礼貌度可控对话生成。

方法详解

整体框架

系统分为两个解耦的模块:(1)内容生成器,负责根据对话上下文生成信息完整的回复内容;(2)前缀短语生成器,根据目标礼貌等级和当前回复内容生成适当的前缀短语和语气调整。最终回复为前缀短语与内容的拼接,可能还包括对内容中部分表达的语气微调。

关键设计

  1. 礼貌度量化与前缀短语数据库:

    • 功能:将礼貌度从主观概念转化为可操作的数值尺度
    • 核心思路:定义 5 个礼貌等级(从非常直接到非常礼貌),通过众包标注大规模对话数据获取礼貌等级标签。同时构建了一个按礼貌等级组织的前缀短语数据库,包含问候语、缓和语、致歉语、请求语等类别的前缀短语,每个短语标注了对应的礼貌等级和适用场景。
    • 设计动机:将模糊的"礼貌"概念操作化是控制的前提。分级设计提供了连续可调的控制旋钮,而前缀数据库为生成器提供了训练信号。
  2. 上下文感知前缀生成器:

    • 功能:根据对话上下文和目标礼貌等级生成合适的前缀短语
    • 核心思路:基于小型 Transformer 模型(如 T5-small),输入为对话历史 + 当前回复内容 + 目标礼貌等级 token,输出为前缀短语序列。模型在前缀短语数据库上训练,学习在什么上下文下应该使用什么类型的前缀。生成时通过 temperature 和等级 token 联合控制前缀的礼貌程度。
    • 设计动机:前缀不能机械地从数据库中选取,需要根据对话内容和情感状态动态生成。上下文感知确保前缀与对话内容语义一致。
  3. 多轮一致性约束:

    • 功能:确保多轮对话中礼貌水平的平稳过渡
    • 核心思路:引入一个礼貌等级追踪器,记录历史各轮的礼貌等级,并计算相邻轮次间的礼貌等级变化。如果没有外部信号(如用户情绪变化),则通过正则化约束限制相邻轮次的礼貌等级变化不超过 1 级。当检测到用户情绪变化(如不满、紧急)时,自动提升目标礼貌等级。
    • 设计动机:突然的语气变化会让用户感到不自然。一致性约束模拟了人类客服在对话中保持平稳语气的行为。

损失函数 / 训练策略

前缀生成器的训练目标包括:(1)前缀-内容搭配损失(通过人工标注的配对数据);(2)礼貌等级匹配损失(生成前缀经礼貌分类器判断的等级与目标等级的差距);(3)语义一致性损失(前缀与回复内容的语义相似度)。整体损失为 \(L = L_{gen} + \gamma_1 L_{polite} + \gamma_2 L_{coherence}\)

实验关键数据

主实验

数据集 指标 本文方法 Control Token Style Transfer 直接提示
DailyDialog 礼貌匹配率↑ 87.3% 72.1% 78.5% 69.4%
DailyDialog BLEU↑ 18.6 17.2 14.8 18.1
ConvAI2 礼貌匹配率↑ 85.1% 68.9% 75.3% 66.7%
ConvAI2 信息保留率↑ 94.2% 91.5% 82.7% 93.8%
客服对话 用户满意度↑ 4.21/5 3.72/5 3.85/5 3.64/5

消融实验

配置 礼貌匹配率 BLEU 信息保留率 说明
Full model 87.3% 18.6 94.2% 完整方法
w/o 上下文感知 79.6% 17.4 92.1% 随机选前缀,掉7.7%
w/o 多轮一致性 83.1% 18.4 93.8% 去掉一致性约束
w/o 前缀解耦 80.4% 16.3 87.5% 端到端风格控制
固定前缀模板 76.8% 18.3 93.9% 用固定模板替代生成

关键发现

  • 前缀解耦设计贡献最大——信息保留率从 87.5% 提升到 94.2%,证明将礼貌控制与内容生成解耦能有效保护信息完整性
  • 上下文感知是区别于简单模板的关键,匹配率提升 10.5 个百分点
  • 在真实客服场景中,动态礼貌调整获得了最高的用户满意度(4.21/5)

亮点与洞察

  • 前缀短语增强的思路借鉴了人类语言行为中的礼貌策略——这是一种符合语用学原理的设计,比端到端风格转换更自然
  • 解耦设计是关键创新——将"怎么说"(礼貌前缀)和"说什么"(内容)分开,避免了风格控制对内容的干扰
  • 方法可以迁移到其他对话风格控制任务,如正式度控制、情感表达强度调节

局限与展望

  • 前缀短语方式适合添加礼貌标记,但对于需要整句风格改变的场景能力有限
  • 礼貌度的感知因文化背景而异,当前的等级划分可能不具跨文化通用性
  • 5 等级的粒度可能在某些场景下仍显粗糙,更细粒度的连续控制值得探索
  • 暂未考虑非文本因素(如表情符号、标点使用)对礼貌感知的影响

相关工作与启发

  • vs CTRL (Keskar et al.): CTRL 用控制码做条件生成,本文用前缀增强,优势在于不影响核心内容生成
  • vs Politeness Transfer (Madaan et al.): 风格迁移方法改写整句,信息损失大;本文只添加前缀,信息保留率高出 11.5%
  • vs RL-based style control: RL 方法训练成本高且不稳定;本文的轻量级方案只需训练小型前缀生成器
  • vs Prompt-based style control: LLM提示方法虽然灵活,但无法精确控制礼貌程度的连续变化,本文的分级设计更可控

评分

  • 新颖性: ⭐⭐⭐⭐ 前缀增强的思路简洁且符合语言学直觉
  • 实验充分度: ⭐⭐⭐⭐ 自动指标和人工评估都有,包含真实场景验证
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述易理解
  • 价值: ⭐⭐⭐⭐ 对对话系统的风格控制有实用价值

相关论文