Controlling Politeness in Multi-Turn Dialogues Through Pre-Phrase Augmentation¶

会议: ACL 2025
领域: 文本生成
关键词: 礼貌控制、多轮对话、前缀短语增强、风格控制、对话生成

一句话总结¶

本文提出一种基于前缀短语增强（Pre-Phrase Augmentation）的方法，通过在对话生成过程中自动添加礼貌性调控前缀，实现多轮对话中礼貌程度的细粒度控制，同时保持对话内容的连贯性和信息完整性。

研究背景与动机¶

领域现状：对话系统的礼貌性（politeness）是影响用户体验的重要因素，尤其在客服、医疗咨询、教育等场景中。当前大语言模型生成的对话往往在礼貌程度上缺乏精确控制——要么生硬直接，要么过度客套，难以根据场景需求灵活调整。

现有痛点：现有的风格控制方法主要包括：（1）条件生成——通过 control token 或条件向量控制，但在多轮对话中难以维持一致的礼貌水平；（2）后处理重写——先生成再改写为目标风格，但容易损失信息或引入不连贯；（3）RLHF/微调——有效但成本高且缺乏细粒度控制（只能选"礼貌"或"不礼貌"，无法调整程度）。核心问题是在多轮场景下，礼貌性需要随对话进展动态调整（如用户情绪变化时需更礼貌），现有方法缺乏这种动态能力。

核心矛盾：礼貌性控制需要同时满足两个目标：（1）准确传达原始信息内容；（2）符合目标礼貌程度。这两者在某些情况下存在冲突——过于礼貌的表达可能弱化关键信息，而过于直接的表达可能被认为不礼貌。

本文目标：设计一种轻量级的礼貌控制方法，能够在多轮对话中实现连续可调的礼貌程度控制，且不影响生成内容的质量和信息量。

切入角度：作者观察到人类调节礼貌程度时，通常是通过添加前缀短语（如"不好意思"、"如果方便的话"、"请问您是否可以"）来实现，而非改变核心内容。受此启发，提出通过学习和插入适当的前缀短语来控制礼貌度。

核心 idea：训练一个前缀短语生成器，根据目标礼貌等级和对话上下文生成合适的礼貌前缀，将其与内容生成解耦，实现不影响信息内容的礼貌度可控对话生成。

方法详解¶

整体框架¶

系统分为两个解耦的模块：（1）内容生成器，负责根据对话上下文生成信息完整的回复内容；（2）前缀短语生成器，根据目标礼貌等级和当前回复内容生成适当的前缀短语和语气调整。最终回复为前缀短语与内容的拼接，可能还包括对内容中部分表达的语气微调。

关键设计¶

礼貌度量化与前缀短语数据库:
- 功能：将礼貌度从主观概念转化为可操作的数值尺度
- 核心思路：定义 5 个礼貌等级（从非常直接到非常礼貌），通过众包标注大规模对话数据获取礼貌等级标签。同时构建了一个按礼貌等级组织的前缀短语数据库，包含问候语、缓和语、致歉语、请求语等类别的前缀短语，每个短语标注了对应的礼貌等级和适用场景。
- 设计动机：将模糊的"礼貌"概念操作化是控制的前提。分级设计提供了连续可调的控制旋钮，而前缀数据库为生成器提供了训练信号。
上下文感知前缀生成器:
- 功能：根据对话上下文和目标礼貌等级生成合适的前缀短语
- 核心思路：基于小型 Transformer 模型（如 T5-small），输入为对话历史 + 当前回复内容 + 目标礼貌等级 token，输出为前缀短语序列。模型在前缀短语数据库上训练，学习在什么上下文下应该使用什么类型的前缀。生成时通过 temperature 和等级 token 联合控制前缀的礼貌程度。
- 设计动机：前缀不能机械地从数据库中选取，需要根据对话内容和情感状态动态生成。上下文感知确保前缀与对话内容语义一致。
多轮一致性约束:
- 功能：确保多轮对话中礼貌水平的平稳过渡
- 核心思路：引入一个礼貌等级追踪器，记录历史各轮的礼貌等级，并计算相邻轮次间的礼貌等级变化。如果没有外部信号（如用户情绪变化），则通过正则化约束限制相邻轮次的礼貌等级变化不超过 1 级。当检测到用户情绪变化（如不满、紧急）时，自动提升目标礼貌等级。
- 设计动机：突然的语气变化会让用户感到不自然。一致性约束模拟了人类客服在对话中保持平稳语气的行为。

损失函数 / 训练策略¶

前缀生成器的训练目标包括：（1）前缀-内容搭配损失（通过人工标注的配对数据）；（2）礼貌等级匹配损失（生成前缀经礼貌分类器判断的等级与目标等级的差距）；（3）语义一致性损失（前缀与回复内容的语义相似度）。整体损失为 \(L = L_{gen} + \gamma_1 L_{polite} + \gamma_2 L_{coherence}\)。

实验关键数据¶

主实验¶

数据集	指标	本文方法	Control Token	Style Transfer	直接提示
DailyDialog	礼貌匹配率↑	87.3%	72.1%	78.5%	69.4%
DailyDialog	BLEU↑	18.6	17.2	14.8	18.1
ConvAI2	礼貌匹配率↑	85.1%	68.9%	75.3%	66.7%
ConvAI2	信息保留率↑	94.2%	91.5%	82.7%	93.8%
客服对话	用户满意度↑	4.21/5	3.72/5	3.85/5	3.64/5

消融实验¶

配置	礼貌匹配率	BLEU	信息保留率	说明
Full model	87.3%	18.6	94.2%	完整方法
w/o 上下文感知	79.6%	17.4	92.1%	随机选前缀，掉7.7%
w/o 多轮一致性	83.1%	18.4	93.8%	去掉一致性约束
w/o 前缀解耦	80.4%	16.3	87.5%	端到端风格控制
固定前缀模板	76.8%	18.3	93.9%	用固定模板替代生成

关键发现¶

前缀解耦设计贡献最大——信息保留率从 87.5% 提升到 94.2%，证明将礼貌控制与内容生成解耦能有效保护信息完整性
上下文感知是区别于简单模板的关键，匹配率提升 10.5 个百分点
在真实客服场景中，动态礼貌调整获得了最高的用户满意度（4.21/5）

亮点与洞察¶

前缀短语增强的思路借鉴了人类语言行为中的礼貌策略——这是一种符合语用学原理的设计，比端到端风格转换更自然
解耦设计是关键创新——将"怎么说"（礼貌前缀）和"说什么"（内容）分开，避免了风格控制对内容的干扰
方法可以迁移到其他对话风格控制任务，如正式度控制、情感表达强度调节

局限与展望¶

前缀短语方式适合添加礼貌标记，但对于需要整句风格改变的场景能力有限
礼貌度的感知因文化背景而异，当前的等级划分可能不具跨文化通用性
5 等级的粒度可能在某些场景下仍显粗糙，更细粒度的连续控制值得探索
暂未考虑非文本因素（如表情符号、标点使用）对礼貌感知的影响

评分¶

新颖性: ⭐⭐⭐⭐ 前缀增强的思路简洁且符合语言学直觉
实验充分度: ⭐⭐⭐⭐ 自动指标和人工评估都有，包含真实场景验证
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述易理解
价值: ⭐⭐⭐⭐ 对对话系统的风格控制有实用价值