Belief-Calibrated Multi-Agent Consensus Seeking for Complex NLP Tasks¶

会议: NeurIPS 2025
arXiv: 2510.06307
代码: https://github.com/dengwentao99/BCCS
领域: LLM Agent
关键词: 多智能体系统, 共识机制, 信念校准, 协作推理, LLM协作

一句话总结¶

提出 Belief-Calibrated Consensus Seeking (BCCS) 框架，通过引入信念（belief）校准的共识判断、冲突感知的协作者分配和领导者选择三个模块，让多智能体系统在复杂NLP任务上达成更稳定的共识，在 MATH 和 MMLU 上的困难任务分别提升 2.23% 和 3.95%。

研究背景与动机¶

领域现状：多智能体系统（MAS）通过多个 LLM agent 协作来增强推理能力，共识机制（consensus-seeking）是其核心协议。已有方法如 MAD、GroupDebate、DyLAN 等通过投票或辩论达成共识。
现有痛点：
现有共识判断仅基于 agent 输出答案的一致性（如 Byzantine Consensus 要求 >2/3 一致），忽略了 agent 内部信念（confidence/belief）的矛盾——即使答案一致，如果 agent 自身信念不高，共识可能不稳定
Agent 在协作时与所有其他 agent 无差别交互，没有选择性地找到最优协作伙伴——过度依赖支持者可能陷入次优，被过多反对意见淹没则阻碍共识
核心矛盾：稳定共识不仅需要答案一致，还需要信念一致；而现有方法只管前者不管后者。
本文要解决什么？ (a) 如何在共识判断中引入信念校准，避免低信念的虚假共识？(b) 如何为每个 agent 选择最优协作者（支持者+反对者的平衡）？
切入角度：从 opinion dynamics 理论出发，将 LLM 输出概率作为信念代理度量，形式化分析什么条件下 MAS 能收敛到稳定共识。
核心idea一句话：用 LLM 输出概率作为 belief 来校准共识判断，结合冲突评分自动分配协作者和领导者，让多智能体推理更稳定。

方法详解¶

整体框架¶

BCCS 是一个迭代式多智能体共识框架。输入是用户问题 \(q\)，\(n\) 个 LLM agent 各自生成答案 \(x_i^k\) 和推理过程 \(e_i^k\)。信念 \(b_i^k = P(x_i^k | q, e_i^k)\) 定义为 LLM 输出概率。每轮迭代：(1) BCCJ 模块判断共识状态 → (2) 根据状态分发到 CA 或 LS 模块 → (3) agent 更新意见 → 重复直到全共识或达到最大轮数。

关键设计¶

信念校准共识判断（BCCJ）:
做什么：将 MAS 状态分为三级——全共识、部分共识、无共识
核心思路：不仅看答案比例 \(p_s^k > 2/3\)（Byzantine），还要求信念比例 \(p_b^k > 0.8\)，即支持组的总信念是反对组的 4 倍以上。部分共识要求 \(p_b^k > 0.5\)。都不满足则为无共识
设计动机：防止"答案一致但信念不高"的虚假共识，避免收敛到次优解
与现有方法区别：Byzantine Consensus 只看答案数量，BCCJ 同时看信念质量
协作者分配（CA）模块:
做什么：在部分共识状态下，为每个 agent 分配最优协作者
核心思路：通过冲突评分 \(\psi_{pq} = \psi_{pq}^{\mathcal{G}} \cdot \psi_{pq}^{\mathcal{L}}\) 量化组间冲突程度。宏观冲突 \(\psi^{\mathcal{G}}\) 用信念加权的 Jaccard 相似度互补衡量总体分歧，微观冲突 \(\psi^{\mathcal{L}}\) 衡量局部一致性差异。\(\psi_{pq} > 2\) 视为冲突组
关键策略：最不确定组中信念最低的 agent 与冲突组中信念最高的 agent 协作（纠偏），其他 agent 与支持组中信念最高的 agent 协作（加速收敛）
设计动机：基于 Theorem 3.2——纯支持组协作会收敛但可能次优，需适量引入冲突意见
领导者选择（LS）模块:
做什么：在无共识状态下，为每个意见组选出领导者引导方向
核心思路：每组选出 \(n^l\) 个信念最高的 agent 作为 leader，其他 agent 只与 leader 交互更新意见
设计动机：基于 Theorem 3.3——跟随高信念 leader 可以加速收敛到稳定共识。每轮重新选 leader 避免次优 agent 长期主导

理论基础¶

论文建立了两个关键定理： - Theorem 3.2：与支持者协作趋向稳定共识（收敛到平均意见），与冲突者协作导致不稳定（可能震荡/发散） - Theorem 3.3：跟随组内 leader 趋向领导者的平均状态，高信念 leader 加速收敛

这为 CA 和 LS 模块的设计提供了理论支撑。

实验关键数据¶

主实验¶

方法	MATH Avg	MMLU Avg
CoT (单agent)	73.33	71.87
CoT-SC	76.67	73.13
EoT	78.40	74.33
GroupDebate	77.93	74.87
MAD	78.87	76.13
PARSE	78.53	76.47
CMD	78.93	75.07
DyLAN	78.80	75.00
BCCS	80.60	78.47

BCCS 在 MATH 上比最强 baseline (CMD) 提升 1.67%，在 MMLU 上比 PARSE 提升 2.00%。困难任务提升更显著：MATH Intermediate Algebra +2.23%, MMLU Humanities +3.95%。

消融实验¶

配置	MATH Avg	说明
BCCS (完整)	80.60	完整模型
-CA	78.60	去掉协作者分配，掉 2.00%
-Conflict	79.33	只用支持者协作，掉 1.27%
-LS	79.20	去掉领导者选择，掉 1.40%
R.Leader	79.53	随机选 leader，掉 1.07%
-BCCJ	79.07	去掉信念校准判断，掉 1.53%

关键发现¶

CA 模块贡献最大（去掉后掉 2.00%），说明选择性协作比无差别交互重要
引入冲突意见（vs -Conflict）对避免次优解很关键（+1.27%）
信念校准（BCCJ）对困难任务特别重要，因为简单任务本身信念就高
高信念 leader vs 随机 leader：选择性 leader 更有效（+1.07%）
在简单任务上各方法差异不大，BCCS 的优势主要体现在困难任务

亮点与洞察¶

信念作为共识质量信号：将 LLM 输出概率引入共识判断，巧妙地将"答案一致"的表面共识升级为"答案+信念双重一致"的稳定共识。这个思路可以迁移到任何多 agent 投票/辩论系统
冲突评分的双层设计：宏观（Jaccard）+ 微观（局部一致性差异）的冲突评分，比单一指标更全面地刻画组间关系
理论驱动设计：先建立 opinion dynamics 理论保证，再设计算法模块，框架有理论支撑而非纯经验设计

局限性 / 可改进方向¶

信念用 LLM 输出概率近似，已知 LLM 校准性不好（overconfident），不完善的信念估计可能影响效果
7 个 agent、3 轮迭代的计算开销较大（7 次 LLM 调用/轮 × 3 轮 = 21 次），效率有优化空间
仅在 MATH 和 MMLU 上验证，缺少开放式生成任务的评估
分组策略基于关键词分布的相似度，较粗糙，可能在复杂推理场景下分组不准确
简单任务上提升有限，说明方法主要针对有分歧的困难场景

评分¶

新颖性: ⭐⭐⭐⭐ 信念校准共识判断是有意义的创新，但整体框架比较工程化
实验充分度: ⭐⭐⭐⭐ 消融全面，但只用了一个 backbone model (Qwen2.5-7B)
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但论文较长
价值: ⭐⭐⭐⭐ 对多 agent 协作推理有实用参考价值