Thought Communication in Multiagent Collaboration¶

会议: NeurIPS 2025 / arXiv: 2510.20733 / 代码: 未公开 / 领域: llm_nlp / 关键词: 多智能体协作, 心灵感应, 潜变量模型, 可辨识性理论, 隐思维通信

一句话总结¶

提出 ThoughtComm 框架，通过建立隐变量生成模型并提供可辨识性理论保证，让多个 LLM 智能体直接交换潜在"思想"（latent thoughts）而非自然语言，实现超越语言瓶颈的"心灵感应"式协作。

研究背景与动机¶

自然语言虽然促进了人类大规模合作，但其本质上是有序列性的、模糊的、不精确的，只能间接地、碎片化地反映思想。现有基于 LLM 的多智能体系统几乎完全依赖自然语言作为通信媒介。

核心问题：机器不受人类语音和感知的物理限制，是否存在超越语言限制的通信形式？

近期分析揭示了多智能体协作中的常见失败模式：模糊的消息规范和智能体间的不对齐——源于基于有损语言通信的间接本质。本文提出思想通信（Thought Communication）范式：让智能体直接进行 mind-to-mind 交流。

方法详解¶

整体框架¶

ThoughtComm 框架包含三个核心组件： 1. 隐思维提取：从智能体的模型内部状态中恢复潜在思想 2. 思想结构分析：确定哪些思想是共享的、哪些是私有的 3. 前缀注入：将相关的潜在思想注入到每个智能体的生成过程

关键设计¶

数据生成过程形式化：假设所有智能体在通信轮次 t 之前的模型状态 H_t 由一组潜在思想 Z_t 通过未知函数 f 生成。

思想结构的 Jacobian 表征：通过 Jacobian 的非零模式定义思想与智能体之间的结构依赖。

三个可辨识性定理： - Theorem 1（共享思想可辨识）：在稀疏正则化下，任意两个智能体之间的共享思想可以与其他潜变量解纠缠 - Theorem 2（私有思想可辨识）：任意智能体的私有思想组件也可以被解纠缠恢复 - Theorem 3（思想结构可辨识）：连接潜在思想与智能体状态的非零模式可以恢复（至多置换）

稀疏正则化自编码器：使用 L1 正则化在 Jacobian 上的自编码器提取潜在思想，训练目标包含重构损失和稀疏正则化项。

协议级重加权：根据思想被多少智能体共享来分组和加权，为每个智能体构建个性化的潜在表示。

损失函数 / 训练策略¶

前缀适配器通过语义相似度损失和语言流畅度正则化训练。自编码器和适配器均为任务无关的，可以预训练一次后跨任务复用。

实验关键数据¶

主实验¶

在 MATH 和 GSM8K 基准上，使用 3 个智能体进行 2 轮辩论：

基础模型	方法	MATH Acc(%)	GSM8K Acc(%)
Qwen 3-0.6B	Single Answer	45.80	58.20
Qwen 3-0.6B	Multiagent FT	71.20	70.80
Qwen 3-0.6B	ThoughtComm	85.00	75.80
Qwen 3-1.7B	Single Answer	43.60	67.40
Qwen 3-1.7B	Multiagent FT	75.80	84.20
Qwen 3-1.7B	ThoughtComm	93.00	85.00
Phi-4-mini (3.84B)	Multiagent FT	60.20	82.16
Phi-4-mini	ThoughtComm	74.60	84.20
DeepSeek-R1-8B	Multiagent FT	72.40	76.80
DeepSeek-R1-8B	ThoughtComm	82.80	80.80

平均相比 Single Answer 提升 67.23%
平均相比 SOTA Multiagent Finetuning 提升 19.06%

消融实验¶

合成实验验证理论：稀疏正则化模型显著优于无正则化基线，在 8 种维度设置下 MCC 始终超过可辨识性阈值。

辩论轮次影响：Multiagent Finetuning 随辩论轮次增加准确率下降，ThoughtComm 随轮次增加同时提升准确率和共识度。

前缀长度鲁棒性：前缀长度从 1 到 16 变化时，4 个模型的性能波动不超过 5%。

关键发现¶

轻量级额外开销：只训练自编码器和适配器，开销取决于嵌入维度而非参数量
跨模型规模一致有效：从 0.6B 到 8B 参数模型均有显著提升
共识度与准确率正相关：更高共识度直接转化为更高准确率

亮点与洞察¶

开创性范式：首次从理论上形式化多智能体间的"心灵感应"通信，并提供可辨识性保证
优雅的理论-实践结合：理论定理直接指导了实际框架设计
不修改 LLM 参数：通过前缀注入实现思想集成
任务无关的预训练：自编码器和适配器可复用，部署成本低
超越语言的通信思路可扩展到所有模态

局限性 / 可改进方向¶

理论假设较强：需要生成函数可逆且二阶可微
仅限数学推理评估：其他复杂任务效果未知
自编码器质量依赖：重构不佳则理论收益打折
仅使用最后一个 token 的隐藏状态：可能丢失序列级信息
未考虑对抗场景：恶意智能体可能注入误导信息

评分¶

创新性: ⭐⭐⭐⭐⭐ — 开创性地提出思想通信范式，理论和实践兼备
技术深度: ⭐⭐⭐⭐⭐ — 三个可辨识性定理 + 完整实践框架
实验质量: ⭐⭐⭐⭐ — 5个模型、2个基准、合成+真实世界实验，任务多样性有限
实用性: ⭐⭐⭐⭐ — 轻量级、不修改LLM、可复用
总体评分: ⭐⭐⭐⭐⭐ (8.5/10)