Preference Estimation via Opponent Modeling in Multi-Agent Negotiation¶

会议: ACL 2026
arXiv: 2604.15687
代码: 无
领域: 多智能体谈判
关键词: 对手建模, 贝叶斯推理, 偏好估计, 多方谈判, LLM语言信号

一句话总结¶

提出将 LLM 提取的自然语言偏好信号与贝叶斯对手建模框架结合的偏好估计方法，在多方多议题谈判中通过语言似然函数融合定性线索和定量出价信息，将完全达成协议率从 37% 提升至 62%。

领域现状：自动化谈判在多方多议题场景中严重依赖准确的对手建模。传统方法基于 BOA 架构，通过贝叶斯学习从数值出价历史估计对手效用函数。

现有痛点：(1) 纯数值方法无法捕捉自然语言对话中的定性偏好信息，导致信息不完整；(2) LLM 虽能理解语义，但直接用 LLM 推理偏好缺乏战略一致性，在长时间谈判中不稳定；(3) 随着信息量增加，LLM 推理复杂度指数级增长。

核心矛盾：语言中的丰富定性信息（如"议题A对我更重要"）无法被传统数值模型利用，而 LLM 缺乏结构化的信念更新机制。

本文目标：设计一种将语言信号整合到结构化贝叶斯框架中的偏好估计方法，兼具语义理解和概率推理。

切入角度：用 LLM 从发言中提取结构化偏好信号（目标议题/选项 + 态度），然后通过 Luce 选择公理将其转化为概率似然函数，与出价似然融合进行贝叶斯更新。

核心 idea：语言似然 × 出价似然 → 贝叶斯后验更新，将定性和定量信息统一在概率框架中。

在每轮谈判中，代理接收对手的出价 \(d_t\) 和发言 \(u_t\)，用 LLM 解析发言得到偏好信号 \(z_t\)，分别计算出价似然 \(P(d_t|h_k)\) 和语言似然 \(P(z_t|h_k)\)，通过朴素贝叶斯假设融合更新假设后验 \(P(h_k|d_t, z_t)\)。

语言偏好信号提取:
- 功能：将自然语言发言转化为结构化偏好信号
- 核心思路：用 LLM 将发言 \(u_t\) 解析为信号 \(z_t\)，包含两个属性：Target（单个议题/选项或议题/选项间比较）和 Stance（偏好/反对等态度）
- 设计动机：为概率计算提供结构化输入，避免 LLM 直接输出数值估计的不可靠性
基于 Luce 选择公理的语言似然:
- 功能：将结构化信号转化为假设空间上的概率分布
- 核心思路：对于"偏好议题 \(i_x\)"的信号，似然为 \(P(z_t|h_k) = w_x^{(k)} / \sum_m w_m^{(k)}\)，即该议题权重占总权重的比例。比较和反对信号类似处理
- 设计动机：Luce 公理是选择理论中经典的概率模型，自然地将权重/评估值转化为概率
多模态贝叶斯融合:
- 功能：统一更新对手偏好的后验信念
- 核心思路：假设出价和语言信号条件独立，后验 \(P(h_k|d_t, z_t) \propto P(d_t|h_k) \cdot P(z_t|h_k) \cdot P(h_k)\)
- 设计动机：朴素贝叶斯假设虽简化但使计算可行，且出价和语言确实提供互补信息

无模型训练，使用 GPT-4.1 作为底层 LLM。贝叶斯更新在线进行。

6 方 5 议题体育设施建设谈判场景（500 次实验取平均）：

方法	FAR（全员同意率）	PAR（部分同意率）	LAR（潜在同意率）
Base-LLM	0.37	0.76	0.97
Base-OM (all)	0.56	0.92	0.99
LLM-PE (all)	0.32	0.69	0.93
Proposed (all)	0.62	0.89	0.98