Planning with Diffusion Models for Target-Oriented Dialogue Systems¶

会议: ACL 2025
arXiv: 2504.16858
代码: https://github.com/ninglab/DiffTOD
领域: LLM Agent
关键词: 对话规划, 扩散模型, 目标导向对话, 非顺序规划, 轨迹生成

一句话总结¶

DiffTOD 将对话规划建模为轨迹生成问题，利用掩码扩散语言模型实现非顺序对话规划，并设计三种引导机制（词级/语义级/搜索级）灵活控制对话朝目标推进，在谈判/推荐/闲聊三种场景上显著超越基线。

研究背景与动机¶

领域现状：目标导向对话（TOD）系统需要战略性地引导对话朝特定目标推进（如达成交易、推荐商品）
现有痛点：
现有对话规划方法（LLM prompt/RL policy）都是逐步顺序生成，只能基于过去动作规划下一步
顺序规划导致复合错误和短视决策——无法前瞻未来对话走向
LLM 训练时被动跟随指令，缺乏主动引导对话的能力
核心矛盾：顺序规划无法全局优化对话策略，容易陷入局部最优（如谈判中坚持不降价导致谈崩）
本文要解决什么：设计非顺序对话规划方法，同时考虑过去和未来来优化动作策略
切入角度：对话轨迹生成与扩散模型去噪过程的数学联系——都是从不完整到完整的渐进填充
核心idea一句话：用扩散模型同时生成整条对话轨迹（而非逐步），结合条件引导确保轨迹达成目标

方法详解¶

整体框架¶

将 TOD 建模为会话 MDP → 对话规划转化为轨迹生成问题 → 扩散语言模型估计轨迹似然 → 通过条件引导优化动作策略 → 生成的规划交给 LLM 执行对话。规划和生成两阶段解耦。

关键设计¶

扩散模型做轨迹建模 (Trajectory Modeling):
做什么：将对话规划的轨迹似然分解为与扩散去噪过程等价的形式
核心思路：轨迹生成 \(p_\theta(\tau_{0:T}) = p(\tau^N) \prod_{n=1}^N p_\theta(\tau^{n-1}|\tau^n)\) 与扩散去噪数学等价。使用掩码扩散语言模型 (MDLM) 在对话历史上微调，从不完整轨迹逐步恢复出完整轨迹
设计动机：扩散模型的非顺序生成能力天然适合同时考虑过去和未来，避免顺序规划的短视问题
三种目标引导机制 (Guidance Mechanisms):
Word-Level Guidance：将目标关键词固定在轨迹特定位置，扩散模型围绕关键词补全对话。适用于关键词引导的对话
Semantic-Level Guidance：用语义描述（如"系统推荐了目标商品"）作为条件，配合 MBR 解码从多个改写版本中选最优。适用于语义级目标
Search-Based Guidance：构建会话搜索树，在树节点上用词级/语义级引导生成不同动作，通过搜索算法（MCTS）选择最大化累积奖励的路径。适用于需要长程策略的复杂谈判
三种引导可单独或组合使用，测试时灵活切换目标无需重训
轨迹条件分解 (Conditional Trajectory Generation):
似然分解为 \(p_\theta(\tau|\mathcal{O}=1) \propto p_\theta(\tau) \cdot p_\theta(\mathcal{O}=1|\tau)\)，无条件部分由扩散模型生成，条件部分通过引导机制实现
实现为轨迹修复（inpainting）：固定已知的目标状态/动作，扩散模型填充其余部分

损失函数 / 训练策略¶

微调掩码扩散语言模型（MDLM），在对话历史数据上训练。三种引导机制在推理时应用，无需重训。

实验关键数据¶

主实验¶

设置	指标	DiffTOD	最强基线	提升
CraigslistBargain (买方)	SR	0.901	0.798 (Claude-3.5)	+12.9%
CraigslistBargain (卖方)	SR	0.793	0.689 (ProCoT)	+15.1%
TopDial (推荐)	SR	0.663	0.620 (GPT-4o)	+6.9%
PersonaChat (关键词)	KCR	0.767	0.706 (GPT-4o)	+8.6%

消融实验¶

配置	说明
w/o 非顺序规划	SR 显著下降，证明前瞻能力关键
w/o Search-based	谈判场景性能降至 ProCoT 水平
w/o Semantic-level MBR	推荐成功率下降

关键发现¶

在需要长程策略的谈判场景中优势最大——多轮谈判后期差距持续扩大
搜索引导在复杂目标上效果显著，简单目标（如单关键词）词级引导即可
DiffTOD 可在同一模型上通过切换引导策略分别服务买方/卖方，展示灵活性
非顺序规划在稀疏奖励场景（只有结束时才有反馈）特别有效

亮点与洞察¶

扩散模型与对话规划的数学联系推导优雅——从 MDP 轨迹似然到扩散去噪过程的等价变换
三层引导机制设计巧妙：词级→语义级→搜索级，逐级增加复杂度和策略性
"规划与生成解耦"的架构设计使得规划器的输出可以指导任何 LLM 执行对话
灵活引导（测试时切换目标无需重训）解决了 RL-based 方法每个目标都要重训的问题

局限性 / 可改进方向¶

扩散语言模型的生成质量和速度不如自回归 LLM
搜索引导的计算开销较大（需要构建搜索树）
状态和动作用自然语言表示，轨迹长度受模型上下文窗口限制
用户模拟器（GPT-4o）可能不完全反映真实用户行为

评分¶

新颖性: ⭐⭐⭐⭐⭐ 扩散模型用于对话规划的数学建模非常优雅，三层引导设计精巧
实验充分度: ⭐⭐⭐⭐ 三个数据集+多基线+消融+逐轮分析+人工评估
写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰，图示直观
价值: ⭐⭐⭐⭐ 为目标导向对话提供了全新的非顺序规划范式