跳转至

Thought Communication in Multiagent Collaboration

会议: NeurIPS 2025 / arXiv: 2510.20733 / 代码: 未公开 / 领域: llm_nlp / 关键词: 多智能体协作, 心灵感应, 潜变量模型, 可辨识性理论, 隐思维通信

一句话总结

提出 ThoughtComm 框架,通过建立隐变量生成模型并提供可辨识性理论保证,让多个 LLM 智能体直接交换潜在"思想"(latent thoughts)而非自然语言,实现超越语言瓶颈的"心灵感应"式协作。

研究背景与动机

自然语言虽然促进了人类大规模合作,但其本质上是有序列性的、模糊的、不精确的,只能间接地、碎片化地反映思想。现有基于 LLM 的多智能体系统几乎完全依赖自然语言作为通信媒介。

核心问题:机器不受人类语音和感知的物理限制,是否存在超越语言限制的通信形式?

近期分析揭示了多智能体协作中的常见失败模式:模糊的消息规范和智能体间的不对齐——源于基于有损语言通信的间接本质。本文提出思想通信(Thought Communication)范式:让智能体直接进行 mind-to-mind 交流。

方法详解

整体框架

ThoughtComm 框架包含三个核心组件: 1. 隐思维提取:从智能体的模型内部状态中恢复潜在思想 2. 思想结构分析:确定哪些思想是共享的、哪些是私有的 3. 前缀注入:将相关的潜在思想注入到每个智能体的生成过程

关键设计

数据生成过程形式化:假设所有智能体在通信轮次 t 之前的模型状态 H_t 由一组潜在思想 Z_t 通过未知函数 f 生成。

思想结构的 Jacobian 表征:通过 Jacobian 的非零模式定义思想与智能体之间的结构依赖。

三个可辨识性定理: - Theorem 1(共享思想可辨识):在稀疏正则化下,任意两个智能体之间的共享思想可以与其他潜变量解纠缠 - Theorem 2(私有思想可辨识):任意智能体的私有思想组件也可以被解纠缠恢复 - Theorem 3(思想结构可辨识):连接潜在思想与智能体状态的非零模式可以恢复(至多置换)

稀疏正则化自编码器:使用 L1 正则化在 Jacobian 上的自编码器提取潜在思想,训练目标包含重构损失和稀疏正则化项。

协议级重加权:根据思想被多少智能体共享来分组和加权,为每个智能体构建个性化的潜在表示。

损失函数 / 训练策略

前缀适配器通过语义相似度损失和语言流畅度正则化训练。自编码器和适配器均为任务无关的,可以预训练一次后跨任务复用。

实验关键数据

主实验

在 MATH 和 GSM8K 基准上,使用 3 个智能体进行 2 轮辩论:

基础模型 方法 MATH Acc(%) GSM8K Acc(%)
Qwen 3-0.6B Single Answer 45.80 58.20
Qwen 3-0.6B Multiagent FT 71.20 70.80
Qwen 3-0.6B ThoughtComm 85.00 75.80
Qwen 3-1.7B Single Answer 43.60 67.40
Qwen 3-1.7B Multiagent FT 75.80 84.20
Qwen 3-1.7B ThoughtComm 93.00 85.00
Phi-4-mini (3.84B) Multiagent FT 60.20 82.16
Phi-4-mini ThoughtComm 74.60 84.20
DeepSeek-R1-8B Multiagent FT 72.40 76.80
DeepSeek-R1-8B ThoughtComm 82.80 80.80
  • 平均相比 Single Answer 提升 67.23%
  • 平均相比 SOTA Multiagent Finetuning 提升 19.06%

消融实验

合成实验验证理论:稀疏正则化模型显著优于无正则化基线,在 8 种维度设置下 MCC 始终超过可辨识性阈值。

辩论轮次影响:Multiagent Finetuning 随辩论轮次增加准确率下降,ThoughtComm 随轮次增加同时提升准确率和共识度。

前缀长度鲁棒性:前缀长度从 1 到 16 变化时,4 个模型的性能波动不超过 5%。

关键发现

  1. 轻量级额外开销:只训练自编码器和适配器,开销取决于嵌入维度而非参数量
  2. 跨模型规模一致有效:从 0.6B 到 8B 参数模型均有显著提升
  3. 共识度与准确率正相关:更高共识度直接转化为更高准确率

亮点与洞察

  1. 开创性范式:首次从理论上形式化多智能体间的"心灵感应"通信,并提供可辨识性保证
  2. 优雅的理论-实践结合:理论定理直接指导了实际框架设计
  3. 不修改 LLM 参数:通过前缀注入实现思想集成
  4. 任务无关的预训练:自编码器和适配器可复用,部署成本低
  5. 超越语言的通信思路可扩展到所有模态

局限性 / 可改进方向

  1. 理论假设较强:需要生成函数可逆且二阶可微
  2. 仅限数学推理评估:其他复杂任务效果未知
  3. 自编码器质量依赖:重构不佳则理论收益打折
  4. 仅使用最后一个 token 的隐藏状态:可能丢失序列级信息
  5. 未考虑对抗场景:恶意智能体可能注入误导信息

相关工作与启发

  • Multiagent DebateMultiagent Finetuning 形成对比
  • 非线性 ICA 提供理论工具,Prefix Tuning 提供注入机制
  • 启发:知识蒸馏和模型合并可用类似潜空间对齐思路

评分

  • 创新性: ⭐⭐⭐⭐⭐ — 开创性地提出思想通信范式,理论和实践兼备
  • 技术深度: ⭐⭐⭐⭐⭐ — 三个可辨识性定理 + 完整实践框架
  • 实验质量: ⭐⭐⭐⭐ — 5个模型、2个基准、合成+真实世界实验,任务多样性有限
  • 实用性: ⭐⭐⭐⭐ — 轻量级、不修改LLM、可复用
  • 总体评分: ⭐⭐⭐⭐⭐ (8.5/10)