Discourse Coherence and Response-Guided Context Rewriting for Multi-Party Dialogue Generation¶

会议: ACL 2026
arXiv: 2604.06784
代码: 无
领域: 对话系统 / 多方对话
关键词: 多方对话, 上下文改写, 话语连贯性, 偏好学习, 动态自演化

一句话总结¶

本文提出 DRCR，首个将上下文改写引入多方对话生成的框架，使用话语连贯性和回复质量双反馈信号构建偏好数据，通过动态自演化学习让改写器和回复器在迭代训练中相互增强。

领域现状：多方对话生成（MDG）涉及多个角色和复杂的话语结构（跨越多个话语的发言关系），比双方对话困难得多。已有方法通过编码对话结构信息来辅助生成。

现有痛点：(1) 对话中的口语化表达和不完整话语（如指代、省略）损害了话语连贯性，进而影响对话结构的表示质量；(2) 先前方法直接用有缺陷的对话上下文编码结构，未尝试先改善上下文质量；(3) 在多方对话中这些问题更加突出——多个说话者增加了指代和省略的复杂度。

核心矛盾：对话结构编码的质量取决于上下文的连贯性，但原始上下文中的口语表达和省略破坏了连贯性。简单改写可能无法兼顾话语连贯性和下游回复生成的质量。

本文目标：通过对话上下文改写提升多方对话生成质量，同时保证改写既提高话语连贯性又有利于生成高质量回复。

切入角度：用话语连贯性质量和回复生成质量作为双反馈信号构建偏好数据，训练改写器生成既连贯又有利于回复的上下文。

核心 idea：改写器和回复器通过迭代训练相互增强——更好的改写产生更好的回复，更好的回复反馈引导更好的改写。

DRCR 包含两个模块：改写器（Rewriter）和回复器（Responder），通过三个阶段训练：(1) 监督微调——分别训练改写器和回复器的基础能力；(2) 偏好数据构建——用话语连贯性和回复质量双信号对改写结果排序；(3) 动态自演化——改写器和回复器在迭代训练中通过相互反馈持续提升。

话语连贯性反馈:
- 功能：评估改写后上下文的话语结构质量
- 核心思路：使用话语连贯性评估模型为不同改写结果打分，连贯性更高的改写作为偏好数据中的"优选"样本。连贯性衡量改写是否消除了指代歧义、补全了省略、理顺了话语关系
- 设计动机：对话上下文的连贯性直接影响话语结构编码的质量，进而影响回复生成
回复质量反馈:
- 功能：确保改写有利于生成高质量回复
- 核心思路：将不同改写的上下文输入回复器，比较生成回复的质量（相关性、信息量、连贯性）。产生更好回复的改写被标记为"优选"
- 设计动机：改写的最终目标是提升回复质量，仅优化话语连贯性可能不足以保证下游生成效果
动态自演化学习:
- 功能：让改写器和回复器在迭代中相互增强
- 核心思路：在每次迭代中，改写器用当前回复器的反馈更新，更新后的改写器产生更好的上下文，回复器在更好的上下文上进一步提升。多轮迭代直到收敛
- 设计动机：单次训练可能陷入次优——改写器不知道什么样的改写真正有利于当前回复器，动态交互允许两者协同优化

改写器和回复器均使用 DPO 风格的偏好学习。偏好数据由双反馈信号（话语连贯性 + 回复质量）构建。迭代训练直到改写和回复质量稳定。

四个多方对话数据集上的 BLEU/ROUGE 分数