跳转至

Planning with Diffusion Models for Target-Oriented Dialogue Systems

会议: ACL 2025
arXiv: 2504.16858
代码: https://github.com/ninglab/DiffTOD
领域: LLM Agent
关键词: 对话规划, 扩散模型, 目标导向对话, 非顺序规划, 轨迹生成

一句话总结

DiffTOD 将对话规划建模为轨迹生成问题,利用掩码扩散语言模型实现非顺序对话规划,并设计三种引导机制(词级/语义级/搜索级)灵活控制对话朝目标推进,在谈判/推荐/闲聊三种场景上显著超越基线。

研究背景与动机

  1. 领域现状:目标导向对话(TOD)系统需要战略性地引导对话朝特定目标推进(如达成交易、推荐商品)
  2. 现有痛点
  3. 现有对话规划方法(LLM prompt/RL policy)都是逐步顺序生成,只能基于过去动作规划下一步
  4. 顺序规划导致复合错误和短视决策——无法前瞻未来对话走向
  5. LLM 训练时被动跟随指令,缺乏主动引导对话的能力
  6. 核心矛盾:顺序规划无法全局优化对话策略,容易陷入局部最优(如谈判中坚持不降价导致谈崩)
  7. 本文要解决什么:设计非顺序对话规划方法,同时考虑过去和未来来优化动作策略
  8. 切入角度:对话轨迹生成与扩散模型去噪过程的数学联系——都是从不完整到完整的渐进填充
  9. 核心idea一句话:用扩散模型同时生成整条对话轨迹(而非逐步),结合条件引导确保轨迹达成目标

方法详解

整体框架

将 TOD 建模为会话 MDP → 对话规划转化为轨迹生成问题 → 扩散语言模型估计轨迹似然 → 通过条件引导优化动作策略 → 生成的规划交给 LLM 执行对话。规划和生成两阶段解耦。

关键设计

  1. 扩散模型做轨迹建模 (Trajectory Modeling):
  2. 做什么:将对话规划的轨迹似然分解为与扩散去噪过程等价的形式
  3. 核心思路:轨迹生成 \(p_\theta(\tau_{0:T}) = p(\tau^N) \prod_{n=1}^N p_\theta(\tau^{n-1}|\tau^n)\) 与扩散去噪数学等价。使用掩码扩散语言模型 (MDLM) 在对话历史上微调,从不完整轨迹逐步恢复出完整轨迹
  4. 设计动机:扩散模型的非顺序生成能力天然适合同时考虑过去和未来,避免顺序规划的短视问题

  5. 三种目标引导机制 (Guidance Mechanisms):

  6. Word-Level Guidance:将目标关键词固定在轨迹特定位置,扩散模型围绕关键词补全对话。适用于关键词引导的对话
  7. Semantic-Level Guidance:用语义描述(如"系统推荐了目标商品")作为条件,配合 MBR 解码从多个改写版本中选最优。适用于语义级目标
  8. Search-Based Guidance:构建会话搜索树,在树节点上用词级/语义级引导生成不同动作,通过搜索算法(MCTS)选择最大化累积奖励的路径。适用于需要长程策略的复杂谈判
  9. 三种引导可单独或组合使用,测试时灵活切换目标无需重训

  10. 轨迹条件分解 (Conditional Trajectory Generation):

  11. 似然分解为 \(p_\theta(\tau|\mathcal{O}=1) \propto p_\theta(\tau) \cdot p_\theta(\mathcal{O}=1|\tau)\),无条件部分由扩散模型生成,条件部分通过引导机制实现
  12. 实现为轨迹修复(inpainting):固定已知的目标状态/动作,扩散模型填充其余部分

损失函数 / 训练策略

微调掩码扩散语言模型(MDLM),在对话历史数据上训练。三种引导机制在推理时应用,无需重训。

实验关键数据

主实验

设置 指标 DiffTOD 最强基线 提升
CraigslistBargain (买方) SR 0.901 0.798 (Claude-3.5) +12.9%
CraigslistBargain (卖方) SR 0.793 0.689 (ProCoT) +15.1%
TopDial (推荐) SR 0.663 0.620 (GPT-4o) +6.9%
PersonaChat (关键词) KCR 0.767 0.706 (GPT-4o) +8.6%

消融实验

配置 说明
w/o 非顺序规划 SR 显著下降,证明前瞻能力关键
w/o Search-based 谈判场景性能降至 ProCoT 水平
w/o Semantic-level MBR 推荐成功率下降

关键发现

  • 在需要长程策略的谈判场景中优势最大——多轮谈判后期差距持续扩大
  • 搜索引导在复杂目标上效果显著,简单目标(如单关键词)词级引导即可
  • DiffTOD 可在同一模型上通过切换引导策略分别服务买方/卖方,展示灵活性
  • 非顺序规划在稀疏奖励场景(只有结束时才有反馈)特别有效

亮点与洞察

  • 扩散模型与对话规划的数学联系推导优雅——从 MDP 轨迹似然到扩散去噪过程的等价变换
  • 三层引导机制设计巧妙:词级→语义级→搜索级,逐级增加复杂度和策略性
  • "规划与生成解耦"的架构设计使得规划器的输出可以指导任何 LLM 执行对话
  • 灵活引导(测试时切换目标无需重训)解决了 RL-based 方法每个目标都要重训的问题

局限性 / 可改进方向

  • 扩散语言模型的生成质量和速度不如自回归 LLM
  • 搜索引导的计算开销较大(需要构建搜索树)
  • 状态和动作用自然语言表示,轨迹长度受模型上下文窗口限制
  • 用户模拟器(GPT-4o)可能不完全反映真实用户行为

相关工作与启发

  • vs PPDPP (RL-based): PPDPP 用策略梯度顺序优化,DiffTOD 用扩散非顺序生成,后者在长程规划上优势明显
  • vs ProCoT/EnPL (Prompt-based): 提示方法依赖 LLM 的规划能力,DiffTOD 用专门的扩散模型做规划更可控
  • vs Diffuser (Janner et al.): 灵感来源,但 Diffuser 用于连续控制,DiffTOD 适配到离散对话场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 扩散模型用于对话规划的数学建模非常优雅,三层引导设计精巧
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集+多基线+消融+逐轮分析+人工评估
  • 写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 为目标导向对话提供了全新的非顺序规划范式