跳转至

Preference Estimation via Opponent Modeling in Multi-Agent Negotiation

会议: ACL 2026
arXiv: 2604.15687
代码: 无
领域: 多智能体谈判
关键词: 对手建模, 贝叶斯推理, 偏好估计, 多方谈判, LLM语言信号

一句话总结

提出将 LLM 提取的自然语言偏好信号与贝叶斯对手建模框架结合的偏好估计方法,在多方多议题谈判中通过语言似然函数融合定性线索和定量出价信息,将完全达成协议率从 37% 提升至 62%。

研究背景与动机

领域现状:自动化谈判在多方多议题场景中严重依赖准确的对手建模。传统方法基于 BOA 架构,通过贝叶斯学习从数值出价历史估计对手效用函数。

现有痛点:(1) 纯数值方法无法捕捉自然语言对话中的定性偏好信息,导致信息不完整;(2) LLM 虽能理解语义,但直接用 LLM 推理偏好缺乏战略一致性,在长时间谈判中不稳定;(3) 随着信息量增加,LLM 推理复杂度指数级增长。

核心矛盾:语言中的丰富定性信息(如"议题A对我更重要")无法被传统数值模型利用,而 LLM 缺乏结构化的信念更新机制。

本文目标:设计一种将语言信号整合到结构化贝叶斯框架中的偏好估计方法,兼具语义理解和概率推理。

切入角度:用 LLM 从发言中提取结构化偏好信号(目标议题/选项 + 态度),然后通过 Luce 选择公理将其转化为概率似然函数,与出价似然融合进行贝叶斯更新。

核心 idea:语言似然 × 出价似然 → 贝叶斯后验更新,将定性和定量信息统一在概率框架中。

方法详解

整体框架

在每轮谈判中,代理接收对手的出价 \(d_t\) 和发言 \(u_t\),用 LLM 解析发言得到偏好信号 \(z_t\),分别计算出价似然 \(P(d_t|h_k)\) 和语言似然 \(P(z_t|h_k)\),通过朴素贝叶斯假设融合更新假设后验 \(P(h_k|d_t, z_t)\)

关键设计

  1. 语言偏好信号提取:

    • 功能:将自然语言发言转化为结构化偏好信号
    • 核心思路:用 LLM 将发言 \(u_t\) 解析为信号 \(z_t\),包含两个属性:Target(单个议题/选项或议题/选项间比较)和 Stance(偏好/反对等态度)
    • 设计动机:为概率计算提供结构化输入,避免 LLM 直接输出数值估计的不可靠性
  2. 基于 Luce 选择公理的语言似然:

    • 功能:将结构化信号转化为假设空间上的概率分布
    • 核心思路:对于"偏好议题 \(i_x\)"的信号,似然为 \(P(z_t|h_k) = w_x^{(k)} / \sum_m w_m^{(k)}\),即该议题权重占总权重的比例。比较和反对信号类似处理
    • 设计动机:Luce 公理是选择理论中经典的概率模型,自然地将权重/评估值转化为概率
  3. 多模态贝叶斯融合:

    • 功能:统一更新对手偏好的后验信念
    • 核心思路:假设出价和语言信号条件独立,后验 \(P(h_k|d_t, z_t) \propto P(d_t|h_k) \cdot P(z_t|h_k) \cdot P(h_k)\)
    • 设计动机:朴素贝叶斯假设虽简化但使计算可行,且出价和语言确实提供互补信息

损失函数 / 训练策略

无模型训练,使用 GPT-4.1 作为底层 LLM。贝叶斯更新在线进行。

实验关键数据

主实验

6 方 5 议题体育设施建设谈判场景(500 次实验取平均):

方法 FAR(全员同意率) PAR(部分同意率) LAR(潜在同意率)
Base-LLM 0.37 0.76 0.97
Base-OM (all) 0.56 0.92 0.99
LLM-PE (all) 0.32 0.69 0.93
Proposed (all) 0.62 0.89 0.98

消融实验

方法 偏好估计 MSE (Avg) 说明
Proposed 159 语言+数值融合
Base-OM 189 仅数值出价
LLM-PE 163 LLM直接推理

关键发现

  • 相互建模(all)比单方建模(p1)提升显著(FAR 0.46→0.62),说明多方协同效应
  • LLM-PE 直接推理反而不如纯数值方法(FAR 0.32 < 0.56),验证了结构化框架的必要性
  • 语言信号融合使 MSE 从 189 降至 159,估计更准确且分布更均衡

亮点与洞察

  • "LLM 提取 + 贝叶斯推理"的混合范式非常有启发——利用 LLM 的语义能力但不依赖其推理一致性,用数学框架保证结构化更新
  • Luce 选择公理的巧妙应用——将偏好权重自然映射为选择概率,为语言信号到似然函数的转换提供了理论支撑

局限与展望

  • 假设对手发言真诚,未考虑欺骗/虚张声势
  • 仅在单一场景下验证,多样场景泛化性待测
  • 假设空间随议题数增长呈阶乘增长,需要近似算法

相关工作与启发

  • vs Base-LLM: 纯 LLM 谈判缺乏结构化偏好追踪,在长时间谈判中策略不一致
  • vs LLM-PE: LLM 直接推理数值偏好不可靠(FAR 仅 0.32),需要概率框架约束

评分

  • 新颖性: ⭐⭐⭐⭐ 语言信号 + 贝叶斯框架的融合思路新颖
  • 实验充分度: ⭐⭐⭐ 仅单一场景500次实验,场景多样性不足
  • 写作质量: ⭐⭐⭐⭐ 形式化清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 为 LLM 在结构化决策中的应用提供了有价值的范式

相关论文