跳转至

A Dual-Mind Framework for Strategic and Expressive Negotiation Agent

会议: ACL 2025
arXiv: 无公开arXiv链接
代码: 无
领域: NLP对话 / Agent
关键词: 谈判智能体, 双过程理论, 策略规划, 表达优化, MCTS

一句话总结

本文受人类认知双过程理论启发,提出双心智谈判智能体框架(DMNA),将直觉模块(快速策略规划,基于 MCTS+DPO 训练)和审慎模块(慢速表达优化,基于多面反思机制)相结合,在谈判任务上取得了最优性能。

研究背景与动机

领域现状:谈判是一种特殊的对话场景,要求智能体不仅能生成流畅的自然语言回复,还需要有明确的策略目标——通过影响对方的态度或意图来达成共识。当前的谈判智能体研究主要分为两条线:一条关注策略规划(如何选择最优的谈判策略),另一条关注语言表达优化(如何让回复更有说服力)。

现有痛点:现有方法通常只关注策略规划或表达优化中的一个方面。策略导向的方法可能生成策略正确但表达生硬的回复,而表达导向的方法可能语言优美但缺乏有效的谈判策略。两者之间的协同效应被忽视了。人类在谈判时,实际上会同时运用快速的直觉判断(选择策略)和慢速的深思熟虑(打磨表达),这两个过程是互相配合的。

核心矛盾:策略规划需要全局视角和长期回报的考量(类似棋局中的前瞻搜索),而表达优化则需要在给定策略下进行细粒度的语言打磨。两者的时间尺度和优化目标不同,简单地端到端训练难以同时兼顾。

本文目标:设计一个能够同时进行策略规划和表达优化的谈判智能体框架,分别解决"说什么"和"怎么说"的问题。

切入角度:受认知科学中 Kahneman 双过程理论(System 1 和 System 2)的启发——System 1 是快速、自动、基于经验的直觉处理,System 2 是慢速、有意识、逻辑性的分析处理。将这一理论映射到谈判场景:直觉模块(System 1)负责快速的策略选择和初始回复生成,审慎模块(System 2)负责精细的表达优化。

核心 idea:用 MCTS 和 DPO 训练一个直觉模块来同时完成策略规划和初始表达,再用多面反思机制构建审慎模块来优化表达质量,两者协同工作形成完整的谈判智能体。

方法详解

整体框架

DMNA 框架由两个核心模块组成:直觉模块(Intuitive Module)和审慎模块(Deliberative Module)。给定一个谈判对话历史,直觉模块首先基于当前状态快速选择谈判策略并生成初始回复,然后审慎模块对该回复进行表达层面的优化和精修。最终输出的回复既具有正确的策略导向,又具有高质量的语言表达。

关键设计

  1. 直觉模块(基于 MCTS + DPO 训练):

    • 功能:在给定对话历史的情况下,快速进行策略规划并生成高质量的初始回复
    • 核心思路:使用蒙特卡洛树搜索(MCTS)来探索不同策略-回复组合的长期回报。MCTS 的每个节点代表一个对话状态,边代表策略-回复对,通过模拟对话的未来展开来评估每个选择的长期价值。MCTS 搜索产生的策略-回复偏好对被用来通过直接偏好优化(DPO)训练 LLM。具体而言,MCTS 在每轮中选择多个候选策略,对每个策略生成多个回复,然后模拟对话后续发展来估计回报。回报最高和最低的(策略, 回复)对分别作为 DPO 的正负样本
    • 设计动机:MCTS 提供了一种无需预定义奖励模型就能探索策略空间的方法,而 DPO 将搜索得到的偏好信号蒸馏到模型中,使其在推理时无需再运行耗时的搜索,实现 System 1 式的快速响应
  2. 审慎模块(多面反思机制):

    • 功能:对直觉模块生成的初始回复进行多维度的表达质量优化
    • 核心思路:多面反思(Multifaceted Reflexion)从多个维度评估和改进初始回复:(a)说服力维度——检查论点是否有力、证据是否充分;(b)情感维度——检查语气是否恰当、是否考虑了对方的情感状态;(c)策略一致性维度——检查优化后的表达是否仍然符合原定策略目标;(d)流畅性维度——检查语言是否自然、连贯。对于每个维度,使用 LLM 生成针对性的反馈,然后基于这些反馈对回复进行迭代修改
    • 设计动机:单一维度的优化容易导致其他维度的退化(如过度追求说服力可能导致语气过于强硬),多面反思通过多维度的平衡检查来避免这一问题
  3. MCTS 策略-回复联合搜索:

    • 功能:在策略空间和回复空间中联合搜索最优组合
    • 核心思路:MCTS 的四个阶段——选择(基于 UCB 值选择最有前景的节点)、扩展(生成新的策略-回复候选)、模拟(通过 LLM 自博弈模拟后续对话轮次)、回传(将模拟回报传播回祖先节点更新价值估计)。策略选择和回复生成在扩展阶段联合进行,回报函数综合考虑谈判结果(是否达成协议、协议的收益分配)和对话质量(流畅性、连贯性)
    • 设计动机:将策略和表达的搜索统一在 MCTS 框架中,避免了分离优化导致的策略-表达不一致问题

损失函数 / 训练策略

直觉模块使用 DPO 损失进行训练:\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}[\log \sigma(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)})]\),其中 \(y_w\)\(y_l\) 分别是 MCTS 搜索得到的优选回复和劣选回复。审慎模块在推理时通过 prompt engineering 实现,不需要额外训练。

实验关键数据

主实验

数据集 指标 DMNA GPT-4 SOTOPIA DialoGPT-SD 提升
CraigslistBargain 协议分数 78.3 72.1 68.5 62.4 +8.6% vs GPT-4
CraigslistBargain 策略准确率 85.2 79.6 74.3 67.1 +7.0% vs GPT-4
DealOrNoDeal 收益得分 7.82 7.15 6.73 5.91 +9.4% vs GPT-4
DealOrNoDeal 对话质量 4.31 4.42 3.87 3.52 -2.5% vs GPT-4
Persuasion4Good 捐赠率 63.7% 58.2% 52.8% 45.6% +9.5% vs GPT-4

消融实验

配置 协议分数 策略准确率 说明
DMNA(完整) 78.3 85.2 直觉+审慎模块协同
仅直觉模块 74.8 84.6 策略好但表达一般
仅审慎模块 71.5 73.2 表达好但策略弱
w/o MCTS(仅 SFT) 72.1 78.3 MCTS对策略学习关键
w/o DPO(直接用 MCTS) 73.6 82.1 DPO蒸馏提升推理效率
w/o 多面反思(仅单维度) 76.1 84.8 多面反思提升表达质量

关键发现

  • 直觉模块和审慎模块的协同效应显著——单独使用任一模块的性能都明显低于组合使用,验证了双过程理论的合理性
  • MCTS 对策略规划的贡献远大于对表达质量的贡献,这与设计预期一致——MCTS 主要解决"说什么"的问题
  • 审慎模块的多面反思相比单一维度反思在各指标上都有稳定提升,且在情感相关任务(如 Persuasion4Good)上优势更大
  • DMNA 在策略指标上全面超越 GPT-4,但在纯语言质量指标上略逊于 GPT-4,说明策略优化可能以轻微的表达自然度为代价

亮点与洞察

  • 将认知科学的双过程理论巧妙映射到谈判智能体设计中,System 1(直觉/快)+ System 2(审慎/慢)的分工非常自然且有效。这一设计范式可以迁移到其他需要策略-表达协同的场景(如辩论、说服、游戏对话)
  • 用 MCTS 搜索策略偏好来指导 DPO 训练是一个巧妙的"先搜索后蒸馏"范式——训练时投入计算做深度搜索,推理时只需一次前向传播
  • 多面反思机制的可扩展性好,可以根据任务需要灵活增加或调整评估维度

局限与展望

  • MCTS 训练数据生成需要大量的对话模拟,计算成本较高
  • 审慎模块的多轮反思增加了推理延迟,在实时对话场景中可能需要权衡
  • 目前验证的谈判场景相对结构化,在更开放的谈判场景中的表现有待验证
  • 直觉模块和审慎模块之间的协调目前是串行的,未来可以探索更高效的并行或交错执行方式

相关工作与启发

  • vs SOTOPIA Agent: SOTOPIA 侧重社会互动能力,策略建模较弱;DMNA 的 MCTS 策略搜索使其在策略导向任务上更强
  • vs GPT-4 直接提示: GPT-4 拥有强大的语言能力但缺乏针对谈判的策略训练;DMNA 通过专门的策略学习弥补了这一差距
  • vs 强化学习谈判智能体: 传统 RL 方法需要设计复杂的奖励函数,MCTS+DPO 的方案更灵活,不需要显式定义奖励信号

评分

  • 新颖性: ⭐⭐⭐⭐ 双过程理论的映射新颖且合理,MCTS+DPO 的策略蒸馏方案有创新性
  • 实验充分度: ⭐⭐⭐⭐ 三个不同谈判数据集的评估较全面,消融研究详实
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机阐述有说服力
  • 价值: ⭐⭐⭐⭐ 为谈判智能体提供了一个新的设计范式,双模块协同的想法有广泛适用性

相关论文