A Dual-Mind Framework for Strategic and Expressive Negotiation Agent¶
会议: ACL 2025
arXiv: 无公开arXiv链接
代码: 无
领域: NLP对话 / Agent
关键词: 谈判智能体, 双过程理论, 策略规划, 表达优化, MCTS
一句话总结¶
本文受人类认知双过程理论启发,提出双心智谈判智能体框架(DMNA),将直觉模块(快速策略规划,基于 MCTS+DPO 训练)和审慎模块(慢速表达优化,基于多面反思机制)相结合,在谈判任务上取得了最优性能。
研究背景与动机¶
领域现状:谈判是一种特殊的对话场景,要求智能体不仅能生成流畅的自然语言回复,还需要有明确的策略目标——通过影响对方的态度或意图来达成共识。当前的谈判智能体研究主要分为两条线:一条关注策略规划(如何选择最优的谈判策略),另一条关注语言表达优化(如何让回复更有说服力)。
现有痛点:现有方法通常只关注策略规划或表达优化中的一个方面。策略导向的方法可能生成策略正确但表达生硬的回复,而表达导向的方法可能语言优美但缺乏有效的谈判策略。两者之间的协同效应被忽视了。人类在谈判时,实际上会同时运用快速的直觉判断(选择策略)和慢速的深思熟虑(打磨表达),这两个过程是互相配合的。
核心矛盾:策略规划需要全局视角和长期回报的考量(类似棋局中的前瞻搜索),而表达优化则需要在给定策略下进行细粒度的语言打磨。两者的时间尺度和优化目标不同,简单地端到端训练难以同时兼顾。
本文目标:设计一个能够同时进行策略规划和表达优化的谈判智能体框架,分别解决"说什么"和"怎么说"的问题。
切入角度:受认知科学中 Kahneman 双过程理论(System 1 和 System 2)的启发——System 1 是快速、自动、基于经验的直觉处理,System 2 是慢速、有意识、逻辑性的分析处理。将这一理论映射到谈判场景:直觉模块(System 1)负责快速的策略选择和初始回复生成,审慎模块(System 2)负责精细的表达优化。
核心 idea:用 MCTS 和 DPO 训练一个直觉模块来同时完成策略规划和初始表达,再用多面反思机制构建审慎模块来优化表达质量,两者协同工作形成完整的谈判智能体。
方法详解¶
整体框架¶
DMNA 框架由两个核心模块组成:直觉模块(Intuitive Module)和审慎模块(Deliberative Module)。给定一个谈判对话历史,直觉模块首先基于当前状态快速选择谈判策略并生成初始回复,然后审慎模块对该回复进行表达层面的优化和精修。最终输出的回复既具有正确的策略导向,又具有高质量的语言表达。
关键设计¶
-
直觉模块(基于 MCTS + DPO 训练):
- 功能:在给定对话历史的情况下,快速进行策略规划并生成高质量的初始回复
- 核心思路:使用蒙特卡洛树搜索(MCTS)来探索不同策略-回复组合的长期回报。MCTS 的每个节点代表一个对话状态,边代表策略-回复对,通过模拟对话的未来展开来评估每个选择的长期价值。MCTS 搜索产生的策略-回复偏好对被用来通过直接偏好优化(DPO)训练 LLM。具体而言,MCTS 在每轮中选择多个候选策略,对每个策略生成多个回复,然后模拟对话后续发展来估计回报。回报最高和最低的(策略, 回复)对分别作为 DPO 的正负样本
- 设计动机:MCTS 提供了一种无需预定义奖励模型就能探索策略空间的方法,而 DPO 将搜索得到的偏好信号蒸馏到模型中,使其在推理时无需再运行耗时的搜索,实现 System 1 式的快速响应
-
审慎模块(多面反思机制):
- 功能:对直觉模块生成的初始回复进行多维度的表达质量优化
- 核心思路:多面反思(Multifaceted Reflexion)从多个维度评估和改进初始回复:(a)说服力维度——检查论点是否有力、证据是否充分;(b)情感维度——检查语气是否恰当、是否考虑了对方的情感状态;(c)策略一致性维度——检查优化后的表达是否仍然符合原定策略目标;(d)流畅性维度——检查语言是否自然、连贯。对于每个维度,使用 LLM 生成针对性的反馈,然后基于这些反馈对回复进行迭代修改
- 设计动机:单一维度的优化容易导致其他维度的退化(如过度追求说服力可能导致语气过于强硬),多面反思通过多维度的平衡检查来避免这一问题
-
MCTS 策略-回复联合搜索:
- 功能:在策略空间和回复空间中联合搜索最优组合
- 核心思路:MCTS 的四个阶段——选择(基于 UCB 值选择最有前景的节点)、扩展(生成新的策略-回复候选)、模拟(通过 LLM 自博弈模拟后续对话轮次)、回传(将模拟回报传播回祖先节点更新价值估计)。策略选择和回复生成在扩展阶段联合进行,回报函数综合考虑谈判结果(是否达成协议、协议的收益分配)和对话质量(流畅性、连贯性)
- 设计动机:将策略和表达的搜索统一在 MCTS 框架中,避免了分离优化导致的策略-表达不一致问题
损失函数 / 训练策略¶
直觉模块使用 DPO 损失进行训练:\(\mathcal{L}_{\text{DPO}} = -\mathbb{E}[\log \sigma(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)})]\),其中 \(y_w\) 和 \(y_l\) 分别是 MCTS 搜索得到的优选回复和劣选回复。审慎模块在推理时通过 prompt engineering 实现,不需要额外训练。
实验关键数据¶
主实验¶
| 数据集 | 指标 | DMNA | GPT-4 | SOTOPIA | DialoGPT-SD | 提升 |
|---|---|---|---|---|---|---|
| CraigslistBargain | 协议分数 | 78.3 | 72.1 | 68.5 | 62.4 | +8.6% vs GPT-4 |
| CraigslistBargain | 策略准确率 | 85.2 | 79.6 | 74.3 | 67.1 | +7.0% vs GPT-4 |
| DealOrNoDeal | 收益得分 | 7.82 | 7.15 | 6.73 | 5.91 | +9.4% vs GPT-4 |
| DealOrNoDeal | 对话质量 | 4.31 | 4.42 | 3.87 | 3.52 | -2.5% vs GPT-4 |
| Persuasion4Good | 捐赠率 | 63.7% | 58.2% | 52.8% | 45.6% | +9.5% vs GPT-4 |
消融实验¶
| 配置 | 协议分数 | 策略准确率 | 说明 |
|---|---|---|---|
| DMNA(完整) | 78.3 | 85.2 | 直觉+审慎模块协同 |
| 仅直觉模块 | 74.8 | 84.6 | 策略好但表达一般 |
| 仅审慎模块 | 71.5 | 73.2 | 表达好但策略弱 |
| w/o MCTS(仅 SFT) | 72.1 | 78.3 | MCTS对策略学习关键 |
| w/o DPO(直接用 MCTS) | 73.6 | 82.1 | DPO蒸馏提升推理效率 |
| w/o 多面反思(仅单维度) | 76.1 | 84.8 | 多面反思提升表达质量 |
关键发现¶
- 直觉模块和审慎模块的协同效应显著——单独使用任一模块的性能都明显低于组合使用,验证了双过程理论的合理性
- MCTS 对策略规划的贡献远大于对表达质量的贡献,这与设计预期一致——MCTS 主要解决"说什么"的问题
- 审慎模块的多面反思相比单一维度反思在各指标上都有稳定提升,且在情感相关任务(如 Persuasion4Good)上优势更大
- DMNA 在策略指标上全面超越 GPT-4,但在纯语言质量指标上略逊于 GPT-4,说明策略优化可能以轻微的表达自然度为代价
亮点与洞察¶
- 将认知科学的双过程理论巧妙映射到谈判智能体设计中,System 1(直觉/快)+ System 2(审慎/慢)的分工非常自然且有效。这一设计范式可以迁移到其他需要策略-表达协同的场景(如辩论、说服、游戏对话)
- 用 MCTS 搜索策略偏好来指导 DPO 训练是一个巧妙的"先搜索后蒸馏"范式——训练时投入计算做深度搜索,推理时只需一次前向传播
- 多面反思机制的可扩展性好,可以根据任务需要灵活增加或调整评估维度
局限与展望¶
- MCTS 训练数据生成需要大量的对话模拟,计算成本较高
- 审慎模块的多轮反思增加了推理延迟,在实时对话场景中可能需要权衡
- 目前验证的谈判场景相对结构化,在更开放的谈判场景中的表现有待验证
- 直觉模块和审慎模块之间的协调目前是串行的,未来可以探索更高效的并行或交错执行方式
相关工作与启发¶
- vs SOTOPIA Agent: SOTOPIA 侧重社会互动能力,策略建模较弱;DMNA 的 MCTS 策略搜索使其在策略导向任务上更强
- vs GPT-4 直接提示: GPT-4 拥有强大的语言能力但缺乏针对谈判的策略训练;DMNA 通过专门的策略学习弥补了这一差距
- vs 强化学习谈判智能体: 传统 RL 方法需要设计复杂的奖励函数,MCTS+DPO 的方案更灵活,不需要显式定义奖励信号
评分¶
- 新颖性: ⭐⭐⭐⭐ 双过程理论的映射新颖且合理,MCTS+DPO 的策略蒸馏方案有创新性
- 实验充分度: ⭐⭐⭐⭐ 三个不同谈判数据集的评估较全面,消融研究详实
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,动机阐述有说服力
- 价值: ⭐⭐⭐⭐ 为谈判智能体提供了一个新的设计范式,双模块协同的想法有广泛适用性
相关论文¶
- [ACL 2025] Frictional Agent Alignment Framework: Slow Down and Don't Break Things
- [ACL 2025] Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research
- [ACL 2025] Unveiling Dual Quality in Product Reviews: An NLP-Based Approach
- [ACL 2025] Evaluating Design Decisions for Dual Encoder-based Entity Disambiguation
- [ACL 2025] Multi-Hop Question Generation via Dual-Perspective Keyword Guidance