Thought Communication in Multiagent Collaboration¶
会议: NeurIPS 2025 / arXiv: 2510.20733 / 代码: 未公开 / 领域: llm_nlp / 关键词: 多智能体协作, 心灵感应, 潜变量模型, 可辨识性理论, 隐思维通信
一句话总结¶
提出 ThoughtComm 框架,通过建立隐变量生成模型并提供可辨识性理论保证,让多个 LLM 智能体直接交换潜在"思想"(latent thoughts)而非自然语言,实现超越语言瓶颈的"心灵感应"式协作。
研究背景与动机¶
自然语言虽然促进了人类大规模合作,但其本质上是有序列性的、模糊的、不精确的,只能间接地、碎片化地反映思想。现有基于 LLM 的多智能体系统几乎完全依赖自然语言作为通信媒介。
核心问题:机器不受人类语音和感知的物理限制,是否存在超越语言限制的通信形式?
近期分析揭示了多智能体协作中的常见失败模式:模糊的消息规范和智能体间的不对齐——源于基于有损语言通信的间接本质。本文提出思想通信(Thought Communication)范式:让智能体直接进行 mind-to-mind 交流。
方法详解¶
整体框架¶
ThoughtComm 框架包含三个核心组件: 1. 隐思维提取:从智能体的模型内部状态中恢复潜在思想 2. 思想结构分析:确定哪些思想是共享的、哪些是私有的 3. 前缀注入:将相关的潜在思想注入到每个智能体的生成过程
关键设计¶
数据生成过程形式化:假设所有智能体在通信轮次 t 之前的模型状态 H_t 由一组潜在思想 Z_t 通过未知函数 f 生成。
思想结构的 Jacobian 表征:通过 Jacobian 的非零模式定义思想与智能体之间的结构依赖。
三个可辨识性定理: - Theorem 1(共享思想可辨识):在稀疏正则化下,任意两个智能体之间的共享思想可以与其他潜变量解纠缠 - Theorem 2(私有思想可辨识):任意智能体的私有思想组件也可以被解纠缠恢复 - Theorem 3(思想结构可辨识):连接潜在思想与智能体状态的非零模式可以恢复(至多置换)
稀疏正则化自编码器:使用 L1 正则化在 Jacobian 上的自编码器提取潜在思想,训练目标包含重构损失和稀疏正则化项。
协议级重加权:根据思想被多少智能体共享来分组和加权,为每个智能体构建个性化的潜在表示。
损失函数 / 训练策略¶
前缀适配器通过语义相似度损失和语言流畅度正则化训练。自编码器和适配器均为任务无关的,可以预训练一次后跨任务复用。
实验关键数据¶
主实验¶
在 MATH 和 GSM8K 基准上,使用 3 个智能体进行 2 轮辩论:
| 基础模型 | 方法 | MATH Acc(%) | GSM8K Acc(%) |
|---|---|---|---|
| Qwen 3-0.6B | Single Answer | 45.80 | 58.20 |
| Qwen 3-0.6B | Multiagent FT | 71.20 | 70.80 |
| Qwen 3-0.6B | ThoughtComm | 85.00 | 75.80 |
| Qwen 3-1.7B | Single Answer | 43.60 | 67.40 |
| Qwen 3-1.7B | Multiagent FT | 75.80 | 84.20 |
| Qwen 3-1.7B | ThoughtComm | 93.00 | 85.00 |
| Phi-4-mini (3.84B) | Multiagent FT | 60.20 | 82.16 |
| Phi-4-mini | ThoughtComm | 74.60 | 84.20 |
| DeepSeek-R1-8B | Multiagent FT | 72.40 | 76.80 |
| DeepSeek-R1-8B | ThoughtComm | 82.80 | 80.80 |
- 平均相比 Single Answer 提升 67.23%
- 平均相比 SOTA Multiagent Finetuning 提升 19.06%
消融实验¶
合成实验验证理论:稀疏正则化模型显著优于无正则化基线,在 8 种维度设置下 MCC 始终超过可辨识性阈值。
辩论轮次影响:Multiagent Finetuning 随辩论轮次增加准确率下降,ThoughtComm 随轮次增加同时提升准确率和共识度。
前缀长度鲁棒性:前缀长度从 1 到 16 变化时,4 个模型的性能波动不超过 5%。
关键发现¶
- 轻量级额外开销:只训练自编码器和适配器,开销取决于嵌入维度而非参数量
- 跨模型规模一致有效:从 0.6B 到 8B 参数模型均有显著提升
- 共识度与准确率正相关:更高共识度直接转化为更高准确率
亮点与洞察¶
- 开创性范式:首次从理论上形式化多智能体间的"心灵感应"通信,并提供可辨识性保证
- 优雅的理论-实践结合:理论定理直接指导了实际框架设计
- 不修改 LLM 参数:通过前缀注入实现思想集成
- 任务无关的预训练:自编码器和适配器可复用,部署成本低
- 超越语言的通信思路可扩展到所有模态
局限性 / 可改进方向¶
- 理论假设较强:需要生成函数可逆且二阶可微
- 仅限数学推理评估:其他复杂任务效果未知
- 自编码器质量依赖:重构不佳则理论收益打折
- 仅使用最后一个 token 的隐藏状态:可能丢失序列级信息
- 未考虑对抗场景:恶意智能体可能注入误导信息
相关工作与启发¶
- 与 Multiagent Debate 和 Multiagent Finetuning 形成对比
- 非线性 ICA 提供理论工具,Prefix Tuning 提供注入机制
- 启发:知识蒸馏和模型合并可用类似潜空间对齐思路
评分¶
- 创新性: ⭐⭐⭐⭐⭐ — 开创性地提出思想通信范式,理论和实践兼备
- 技术深度: ⭐⭐⭐⭐⭐ — 三个可辨识性定理 + 完整实践框架
- 实验质量: ⭐⭐⭐⭐ — 5个模型、2个基准、合成+真实世界实验,任务多样性有限
- 实用性: ⭐⭐⭐⭐ — 轻量级、不修改LLM、可复用
- 总体评分: ⭐⭐⭐⭐⭐ (8.5/10)