Communicating Activations Between Language Model Agents¶

会议: ICML 2025
arXiv: 2501.14082
代码: 无
领域: LLM/NLP
关键词: 多智能体通信, 激活空间, 模型嫁接, LLM推理, 计算效率

一句话总结¶

提出让 LLM 智能体通过中间层激活（而非自然语言）进行通信的方法——在模型 B 的前向传播中间层注入模型 A 的激活向量，无需额外参数和数据，在多项推理基准上比自然语言通信提升 27%，计算量仅为 1/4。

领域现状：多 LLM 智能体通过自然语言对话（如 debate）可以提升推理能力，但计算成本随智能体数量和消息长度快速增长。

现有痛点：(a) 自然语言通信需要完整的生成+解析循环，计算开销大; (b) 解码过程将丰富的内部表示压缩为单一 token，丢失大量信息; (c) 研究表明模型中间层包含比输出层更丰富的实体表示。

核心矛盾：自然语言是为人类设计的通信媒介，未必是 LLM 间最优的通信方式。

本文目标：能否让 LLM 用更高效、更高信息密度的方式——直接传递激活向量——来通信？

切入角度：Hernandez et al. 发现模型在约一半层处已构建了丰富的实体表示，但到后面层会压缩为下一个 token 的表示——这意味着中间层激活比最终输出携带更多信息。

核心 idea：暂停模型 B 在第 j 层的计算，用函数 \(f\) 融合模型 A 第 k 层的激活，然后继续 B 的前向传播。

激活融合函数:
- 功能：将两个模型的中间激活融合
- 核心思路：测试了 sum (\(a+b\))、mean (\(\frac{a+b}{2}\))、replace (\(a\)) 和可学习线性层四种函数
- 设计动机：简单函数（如 mean）零额外参数，已能带来显著改进
层选择策略:
- 功能：选择最优的注入层 \(j\) 和提取层 \(k\)
- 核心思路：实验发现中间层（约 40-60% 深度）效果最佳
- 设计动机：浅层信息太原始，深层信息开始退化为下一 token 预测

任务	自然语言 Debate	激活通信 (mean)	提升
GSM8K	52.3%	66.5%	+14.2%
MMLU (平均)	49.8%	53.1%	+3.3%
Biographies	68.2%	86.7%	+18.5%
协调游戏	41.0%	68.0%	+27.0%

计算量：<1/4 的自然语言通信