Planning with Diffusion Models for Target-Oriented Dialogue Systems¶
会议: ACL 2025
arXiv: 2504.16858
代码: https://github.com/ninglab/DiffTOD
领域: LLM Agent
关键词: 对话规划, 扩散模型, 目标导向对话, 非顺序规划, 轨迹生成
一句话总结¶
DiffTOD 将对话规划建模为轨迹生成问题,利用掩码扩散语言模型实现非顺序对话规划,并设计三种引导机制(词级/语义级/搜索级)灵活控制对话朝目标推进,在谈判/推荐/闲聊三种场景上显著超越基线。
研究背景与动机¶
- 领域现状:目标导向对话(TOD)系统需要战略性地引导对话朝特定目标推进(如达成交易、推荐商品)
- 现有痛点:
- 现有对话规划方法(LLM prompt/RL policy)都是逐步顺序生成,只能基于过去动作规划下一步
- 顺序规划导致复合错误和短视决策——无法前瞻未来对话走向
- LLM 训练时被动跟随指令,缺乏主动引导对话的能力
- 核心矛盾:顺序规划无法全局优化对话策略,容易陷入局部最优(如谈判中坚持不降价导致谈崩)
- 本文要解决什么:设计非顺序对话规划方法,同时考虑过去和未来来优化动作策略
- 切入角度:对话轨迹生成与扩散模型去噪过程的数学联系——都是从不完整到完整的渐进填充
- 核心idea一句话:用扩散模型同时生成整条对话轨迹(而非逐步),结合条件引导确保轨迹达成目标
方法详解¶
整体框架¶
将 TOD 建模为会话 MDP → 对话规划转化为轨迹生成问题 → 扩散语言模型估计轨迹似然 → 通过条件引导优化动作策略 → 生成的规划交给 LLM 执行对话。规划和生成两阶段解耦。
关键设计¶
- 扩散模型做轨迹建模 (Trajectory Modeling):
- 做什么:将对话规划的轨迹似然分解为与扩散去噪过程等价的形式
- 核心思路:轨迹生成 \(p_\theta(\tau_{0:T}) = p(\tau^N) \prod_{n=1}^N p_\theta(\tau^{n-1}|\tau^n)\) 与扩散去噪数学等价。使用掩码扩散语言模型 (MDLM) 在对话历史上微调,从不完整轨迹逐步恢复出完整轨迹
-
设计动机:扩散模型的非顺序生成能力天然适合同时考虑过去和未来,避免顺序规划的短视问题
-
三种目标引导机制 (Guidance Mechanisms):
- Word-Level Guidance:将目标关键词固定在轨迹特定位置,扩散模型围绕关键词补全对话。适用于关键词引导的对话
- Semantic-Level Guidance:用语义描述(如"系统推荐了目标商品")作为条件,配合 MBR 解码从多个改写版本中选最优。适用于语义级目标
- Search-Based Guidance:构建会话搜索树,在树节点上用词级/语义级引导生成不同动作,通过搜索算法(MCTS)选择最大化累积奖励的路径。适用于需要长程策略的复杂谈判
-
三种引导可单独或组合使用,测试时灵活切换目标无需重训
-
轨迹条件分解 (Conditional Trajectory Generation):
- 似然分解为 \(p_\theta(\tau|\mathcal{O}=1) \propto p_\theta(\tau) \cdot p_\theta(\mathcal{O}=1|\tau)\),无条件部分由扩散模型生成,条件部分通过引导机制实现
- 实现为轨迹修复(inpainting):固定已知的目标状态/动作,扩散模型填充其余部分
损失函数 / 训练策略¶
微调掩码扩散语言模型(MDLM),在对话历史数据上训练。三种引导机制在推理时应用,无需重训。
实验关键数据¶
主实验¶
| 设置 | 指标 | DiffTOD | 最强基线 | 提升 |
|---|---|---|---|---|
| CraigslistBargain (买方) | SR | 0.901 | 0.798 (Claude-3.5) | +12.9% |
| CraigslistBargain (卖方) | SR | 0.793 | 0.689 (ProCoT) | +15.1% |
| TopDial (推荐) | SR | 0.663 | 0.620 (GPT-4o) | +6.9% |
| PersonaChat (关键词) | KCR | 0.767 | 0.706 (GPT-4o) | +8.6% |
消融实验¶
| 配置 | 说明 |
|---|---|
| w/o 非顺序规划 | SR 显著下降,证明前瞻能力关键 |
| w/o Search-based | 谈判场景性能降至 ProCoT 水平 |
| w/o Semantic-level MBR | 推荐成功率下降 |
关键发现¶
- 在需要长程策略的谈判场景中优势最大——多轮谈判后期差距持续扩大
- 搜索引导在复杂目标上效果显著,简单目标(如单关键词)词级引导即可
- DiffTOD 可在同一模型上通过切换引导策略分别服务买方/卖方,展示灵活性
- 非顺序规划在稀疏奖励场景(只有结束时才有反馈)特别有效
亮点与洞察¶
- 扩散模型与对话规划的数学联系推导优雅——从 MDP 轨迹似然到扩散去噪过程的等价变换
- 三层引导机制设计巧妙:词级→语义级→搜索级,逐级增加复杂度和策略性
- "规划与生成解耦"的架构设计使得规划器的输出可以指导任何 LLM 执行对话
- 灵活引导(测试时切换目标无需重训)解决了 RL-based 方法每个目标都要重训的问题
局限性 / 可改进方向¶
- 扩散语言模型的生成质量和速度不如自回归 LLM
- 搜索引导的计算开销较大(需要构建搜索树)
- 状态和动作用自然语言表示,轨迹长度受模型上下文窗口限制
- 用户模拟器(GPT-4o)可能不完全反映真实用户行为
相关工作与启发¶
- vs PPDPP (RL-based): PPDPP 用策略梯度顺序优化,DiffTOD 用扩散非顺序生成,后者在长程规划上优势明显
- vs ProCoT/EnPL (Prompt-based): 提示方法依赖 LLM 的规划能力,DiffTOD 用专门的扩散模型做规划更可控
- vs Diffuser (Janner et al.): 灵感来源,但 Diffuser 用于连续控制,DiffTOD 适配到离散对话场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 扩散模型用于对话规划的数学建模非常优雅,三层引导设计精巧
- 实验充分度: ⭐⭐⭐⭐ 三个数据集+多基线+消融+逐轮分析+人工评估
- 写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰,图示直观
- 价值: ⭐⭐⭐⭐ 为目标导向对话提供了全新的非顺序规划范式