A Dual-Mind Framework for Strategic and Expressive Negotiation Agent¶

会议: ACL 2025
arXiv: 无公开arXiv链接
代码: 无
领域: NLP对话 / Agent
关键词: 谈判智能体, 双过程理论, 策略规划, 表达优化, MCTS

一句话总结¶

本文受人类认知双过程理论启发，提出双心智谈判智能体框架（DMNA），将直觉模块（快速策略规划，基于 MCTS+DPO 训练）和审慎模块（慢速表达优化，基于多面反思机制）相结合，在谈判任务上取得了最优性能。

研究背景与动机¶

领域现状：谈判是一种特殊的对话场景，要求智能体不仅能生成流畅的自然语言回复，还需要有明确的策略目标——通过影响对方的态度或意图来达成共识。当前的谈判智能体研究主要分为两条线：一条关注策略规划（如何选择最优的谈判策略），另一条关注语言表达优化（如何让回复更有说服力）。

现有痛点：现有方法通常只关注策略规划或表达优化中的一个方面。策略导向的方法可能生成策略正确但表达生硬的回复，而表达导向的方法可能语言优美但缺乏有效的谈判策略。两者之间的协同效应被忽视了。人类在谈判时，实际上会同时运用快速的直觉判断（选择策略）和慢速的深思熟虑（打磨表达），这两个过程是互相配合的。

核心矛盾：策略规划需要全局视角和长期回报的考量（类似棋局中的前瞻搜索），而表达优化则需要在给定策略下进行细粒度的语言打磨。两者的时间尺度和优化目标不同，简单地端到端训练难以同时兼顾。

本文目标：设计一个能够同时进行策略规划和表达优化的谈判智能体框架，分别解决"说什么"和"怎么说"的问题。

切入角度：受认知科学中 Kahneman 双过程理论（System 1 和 System 2）的启发——System 1 是快速、自动、基于经验的直觉处理，System 2 是慢速、有意识、逻辑性的分析处理。将这一理论映射到谈判场景：直觉模块（System 1）负责快速的策略选择和初始回复生成，审慎模块（System 2）负责精细的表达优化。

核心 idea：用 MCTS 和 DPO 训练一个直觉模块来同时完成策略规划和初始表达，再用多面反思机制构建审慎模块来优化表达质量，两者协同工作形成完整的谈判智能体。

方法详解¶

整体框架¶

DMNA 框架由两个核心模块组成：直觉模块（Intuitive Module）和审慎模块（Deliberative Module）。给定一个谈判对话历史，直觉模块首先基于当前状态快速选择谈判策略并生成初始回复，然后审慎模块对该回复进行表达层面的优化和精修。最终输出的回复既具有正确的策略导向，又具有高质量的语言表达。

关键设计¶

直觉模块（基于 MCTS + DPO 训练）:
- 功能：在给定对话历史的情况下，快速进行策略规划并生成高质量的初始回复
- 核心思路：使用蒙特卡洛树搜索（MCTS）来探索不同策略-回复组合的长期回报。MCTS 的每个节点代表一个对话状态，边代表策略-回复对，通过模拟对话的未来展开来评估每个选择的长期价值。MCTS 搜索产生的策略-回复偏好对被用来通过直接偏好优化（DPO）训练 LLM。具体而言，MCTS 在每轮中选择多个候选策略，对每个策略生成多个回复，然后模拟对话后续发展来估计回报。回报最高和最低的（策略, 回复）对分别作为 DPO 的正负样本
- 设计动机：MCTS 提供了一种无需预定义奖励模型就能探索策略空间的方法，而 DPO 将搜索得到的偏好信号蒸馏到模型中，使其在推理时无需再运行耗时的搜索，实现 System 1 式的快速响应
审慎模块（多面反思机制）:
- 功能：对直觉模块生成的初始回复进行多维度的表达质量优化
- 核心思路：多面反思（Multifaceted Reflexion）从多个维度评估和改进初始回复：（a）说服力维度——检查论点是否有力、证据是否充分；（b）情感维度——检查语气是否恰当、是否考虑了对方的情感状态；（c）策略一致性维度——检查优化后的表达是否仍然符合原定策略目标；（d）流畅性维度——检查语言是否自然、连贯。对于每个维度，使用 LLM 生成针对性的反馈，然后基于这些反馈对回复进行迭代修改
- 设计动机：单一维度的优化容易导致其他维度的退化（如过度追求说服力可能导致语气过于强硬），多面反思通过多维度的平衡检查来避免这一问题
MCTS 策略-回复联合搜索:
- 功能：在策略空间和回复空间中联合搜索最优组合
- 核心思路：MCTS 的四个阶段——选择（基于 UCB 值选择最有前景的节点）、扩展（生成新的策略-回复候选）、模拟（通过 LLM 自博弈模拟后续对话轮次）、回传（将模拟回报传播回祖先节点更新价值估计）。策略选择和回复生成在扩展阶段联合进行，回报函数综合考虑谈判结果（是否达成协议、协议的收益分配）和对话质量（流畅性、连贯性）
- 设计动机：将策略和表达的搜索统一在 MCTS 框架中，避免了分离优化导致的策略-表达不一致问题

损失函数 / 训练策略¶

直觉模块使用 DPO 损失进行训练：\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}[\log \sigma(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)})]\)，其中 \(y_w\) 和 \(y_l\) 分别是 MCTS 搜索得到的优选回复和劣选回复。审慎模块在推理时通过 prompt engineering 实现，不需要额外训练。

实验关键数据¶

主实验¶

数据集	指标	DMNA	GPT-4	SOTOPIA	DialoGPT-SD	提升
CraigslistBargain	协议分数	78.3	72.1	68.5	62.4	+8.6% vs GPT-4
CraigslistBargain	策略准确率	85.2	79.6	74.3	67.1	+7.0% vs GPT-4
DealOrNoDeal	收益得分	7.82	7.15	6.73	5.91	+9.4% vs GPT-4
DealOrNoDeal	对话质量	4.31	4.42	3.87	3.52	-2.5% vs GPT-4
Persuasion4Good	捐赠率	63.7%	58.2%	52.8%	45.6%	+9.5% vs GPT-4

消融实验¶

配置	协议分数	策略准确率	说明
DMNA（完整）	78.3	85.2	直觉+审慎模块协同
仅直觉模块	74.8	84.6	策略好但表达一般
仅审慎模块	71.5	73.2	表达好但策略弱
w/o MCTS（仅 SFT）	72.1	78.3	MCTS对策略学习关键
w/o DPO（直接用 MCTS）	73.6	82.1	DPO蒸馏提升推理效率
w/o 多面反思（仅单维度）	76.1	84.8	多面反思提升表达质量

关键发现¶

直觉模块和审慎模块的协同效应显著——单独使用任一模块的性能都明显低于组合使用，验证了双过程理论的合理性
MCTS 对策略规划的贡献远大于对表达质量的贡献，这与设计预期一致——MCTS 主要解决"说什么"的问题
审慎模块的多面反思相比单一维度反思在各指标上都有稳定提升，且在情感相关任务（如 Persuasion4Good）上优势更大
DMNA 在策略指标上全面超越 GPT-4，但在纯语言质量指标上略逊于 GPT-4，说明策略优化可能以轻微的表达自然度为代价

亮点与洞察¶

将认知科学的双过程理论巧妙映射到谈判智能体设计中，System 1（直觉/快）+ System 2（审慎/慢）的分工非常自然且有效。这一设计范式可以迁移到其他需要策略-表达协同的场景（如辩论、说服、游戏对话）
用 MCTS 搜索策略偏好来指导 DPO 训练是一个巧妙的"先搜索后蒸馏"范式——训练时投入计算做深度搜索，推理时只需一次前向传播
多面反思机制的可扩展性好，可以根据任务需要灵活增加或调整评估维度

局限与展望¶

MCTS 训练数据生成需要大量的对话模拟，计算成本较高
审慎模块的多轮反思增加了推理延迟，在实时对话场景中可能需要权衡
目前验证的谈判场景相对结构化，在更开放的谈判场景中的表现有待验证
直觉模块和审慎模块之间的协调目前是串行的，未来可以探索更高效的并行或交错执行方式

评分¶

新颖性: ⭐⭐⭐⭐ 双过程理论的映射新颖且合理，MCTS+DPO 的策略蒸馏方案有创新性
实验充分度: ⭐⭐⭐⭐ 三个不同谈判数据集的评估较全面，消融研究详实
写作质量: ⭐⭐⭐⭐ 框架描述清晰，动机阐述有说服力
价值: ⭐⭐⭐⭐ 为谈判智能体提供了一个新的设计范式，双模块协同的想法有广泛适用性