CoMet: Metaphor-Driven Covert Communication for Multi-Agent Language Games¶

会议: ACL 2025 (Main)
arXiv: 2505.18218
代码: https://github.com/Yeswolo/CoMet
领域: LLM Agent / 多智能体交互
关键词: 隐喻推理, 隐蔽通信, 多智能体博弈, 语言游戏, 策略规划

一句话总结¶

本文提出 CoMet 框架，通过整合基于假设检验的隐喻推理器和自改进式隐喻生成器，使 LLM 智能体能在多智能体语言博弈中运用隐喻进行隐蔽通信和语义规避，在 Undercover 和 Adversarial Taboo 两个游戏中显著提升了智能体的策略沟通能力（胜率从 0.20 提升至 0.70）。

研究背景与动机¶

领域现状：隐喻是人类表达复杂和微妙思想的重要手段，在日常沟通中无处不在。近年来，LLM 被广泛用作多智能体语言博弈的核心，在外交（Diplomacy）、狼人杀（Werewolf）、Avalon 等游戏中取得了较好表现。

现有痛点：当前 LLM 智能体在需要隐喻理解和应用的场景中表现灾难性地差。具体来说，当需要在多智能体博弈中进行"概念伪装"或"语义规避"时，LLM 智能体倾向于字面理解，无法识别或生成隐喻性表达，导致在需要策略沟通的场景中频繁失败。

核心矛盾：多智能体语言博弈中存在一个根本挑战——智能体的发言是公开广播的，队友和对手都能听到。如何在公开信道中实现队友间的信息传递同时不被对手理解？人类玩家自然地使用隐喻来解决这个问题，但 LLM 缺乏这种能力。

本文目标：设计一个让 LLM 智能体能够(1) 理解他人隐喻中的隐含信息，(2) 生成有效的隐喻来实现隐蔽通信的框架。

切入角度：作者观察到隐喻可以作为"自然语言版的非对称加密"——持有相同密钥（秘密词）的一方能解读隐喻的含义，而没有密钥的一方只能得到字面意义。

核心 idea：将隐喻推理形式化为假设检验过程（是否在描述我的秘密词？），将隐喻生成转化为带经验积累的自改进任务，构建完整的隐喻驱动策略沟通框架。

方法详解¶

整体框架¶

CoMet 包含六个模块形成完整的思考-沟通-行动循环：Feature Extractor（特征提取器）从其他玩家的发言中提取词汇特征 → Metaphor Reasoner（隐喻推理器）检测发言中是否包含隐喻并展开推理 → Belief Mapper（信念映射器）推断其他玩家的角色和身份 → Self-Monitor（自我监控器）追踪自身身份认知 → Strategy Planner（策略规划器）制定沟通和行动策略 → Metaphor Generator（隐喻生成器）将策略转化为隐喻性表达 + Voter（投票器）在投票环节做出决策。

关键设计¶

基于假设检验的隐喻推理器（Hypothesis-Based Metaphor Reasoner）:
- 功能：判断其他玩家的发言是否包含与自己秘密词相关的隐喻
- 核心思路：对每条发言建立两个假设——\(H_0\): 发言者在描述与我相同的秘密词，\(H_1\): 发言者在描述另一个词。然后从秘密词中提取多维特征集 \(F\)（行为、状态、结构、功能、属性），从发言中识别隐喻维度集 \(M\)（本体隐喻、结构隐喻、空间隐喻），通过语义匹配函数 \(\delta(f,m,S)\) 计算加权得分 \(s_w = w_f \times w_m \times score\)，得分超过阈值 \(T\) 则接受 \(H_0\)。关键创新在于：不需要完全解读隐喻的真实含义，只需做二元判断"是否在说我的词"
- 设计动机：传统隐喻理解需要完整解读隐喻含义，这对 LLM 来说极其困难。将任务简化为假设检验大幅降低了认知复杂度，同时完美匹配了 Undercover 游戏中"识别队友"的需求。注入 Lakoff 的隐喻理论分类作为先验知识进一步提升推理质量
自改进式隐喻生成器（Self-Improving Metaphor Generator）:
- 功能：生成能被队友理解但迷惑对手的高质量隐喻
- 核心思路：通过自我博弈（self-play）积累隐喻生成经验。每次生成隐喻后，记录队友和对手的反应作为反馈。经验池格式为 {隐喻文本, 生成者解释, 对手识别次数, 队友识别次数, 得分}。未来生成时从经验池中检索相似场景的成功经验作为参考。经验池最大容量 100 条/类别，低分经验定期被高分经验替换
- 设计动机：隐喻生成是高度创造性的任务，难以通过固定规则实现。通过实际博弈中的成败反馈进行迭代改进，是一种务实且有效的策略。实验显示经过 100 次经验积累，GPT-4o 的隐喻成功率提升 29%
信念映射与自我监控（Belief Mapper + Self-Monitor）:
- 功能：推断游戏中所有玩家的角色和自身身份
- 核心思路：Belief Mapper 利用提取的特征进行一阶心智理论（first-order ToM）推理，推断其他玩家的身份 \(I_{-i}\)、角色 \(R_{-i}\) 和策略 \(S_{-i}\)。Self-Monitor 结合特征和信念反向推断自身角色——如果大多数人的描述与我的词不匹配，那我可能是卧底。身份推断随游戏进行迭代更新 \(I_i \leftarrow I_i'\)
- 设计动机：Undercover 游戏中玩家不知道自己的角色，这使得决策极其困难。没有 Self-Monitor，智能体总是假设自己是平民，导致真正作为卧底时立即暴露。消融实验显示去掉 Self-Monitor 后胜率从 0.70 暴跌至 0.05

损失函数 / 训练策略¶

CoMet 是一个基于提示工程的推理框架，不涉及模型训练。其"训练"体现在隐喻生成器的经验池积累过程——通过自我博弈收集经验，评估器为每条隐喻经验打分，定期修剪低分经验。初始经验池包含 20 条人工生成的种子经验。

实验关键数据¶

主实验¶

Undercover 游戏（5人，3平民 vs 2卧底，200词对，10局/词对）：

方法	角色	胜率(WR)	特征提取率(FER)	身份评估准确率(OIAA)	隐私保护(PPC)
CoT	卧底	0.20	0.30	0.65	0.14
CoMet	卧底	0.35	0.82	0.77	0.37
CoT	平民	0.80	0.23	0.61	0.88
CoMet	平民	0.85	0.75	0.73	0.62

Adversarial Taboo 游戏（不同 LLM，对手为 GPT-4o+CoT）：

模型	CoT 胜率	CoMet 胜率	提升
GPT-4o	~40%	87%	+47%
DeepSeek-R1	~35%	78%	+43%
Claude 3.5	~38%	82%	+44%
Qwen2.5-72B	~30%	75%	+45%
Llama3.3-70B	~28%	72%	+44%

消融实验¶

配置	Met.	FE	BM	SM	SP	胜率(WR)
CoMet (完整)	✓	✓	✓	✓	✓	0.70
CoMet w/o Met.	✗	✓	✓	✓	✓	0.45
w/o Met.&FE	✗	✗	✓	✓	✓	0.40
w/o Met.&BM	✗	✓	✗	✓	✓	0.25
w/o Met.&SP	✗	✓	✓	✓	✗	0.25
w/o Met.&SM	✗	✓	✓	✗	✓	0.05

关键发现¶

Self-Monitor 是最关键的模块：去掉后胜率从 0.70 暴跌至 0.05——因为失去自我角色判断后，智能体始终以为自己是平民，作为卧底时会激进暴露信息导致立即被发现
隐喻模块贡献了 0.25 的胜率提升（0.70 vs 0.45），说明隐喻确实是隐蔽通信的关键手段
假设检验式隐喻推理优于直接理解和替换式推理，因为任务被合理简化
经验积累显著提升隐喻生成质量——100 次经验后，GPT-4o 隐喻成功率提升 29%，Qwen2.5-72B 提升 22%
本体隐喻（47%）使用最多且得分最高（0.44），空间隐喻最少（18%）且得分最低（0.22）

亮点与洞察¶

隐喻作为自然语言加密：将隐喻类比为非对称加密是一个极具启发性的洞察。持有相同密钥（秘密词）的一方可以解读，没有密钥的一方只能得到字面意义。这个思路可以扩展到更广泛的安全通信场景
假设检验范式的精妙简化：不去完整理解隐喻含义，而是只做"与我有关 vs 无关"的二元判断，既避免了 LLM 在隐喻理解上的弱点，又完美匹配了游戏任务需求。这种"任务导向的能力简化"是一种值得学习的设计哲学
自我博弈+经验池的闭环学习：不需要额外训练数据，通过游戏本身的成败信号来迭代改进隐喻质量，形成了一个优雅的自提升循环

局限与展望¶

目前仅在概念描述类游戏中验证，更复杂的策略游戏（如外交、狼人杀中的角色推理+隐喻结合）场景尚未探索
隐喻理论框架较为简化（仅三类隐喻），复杂的文化特定隐喻（如中文成语、日语惯用语）未被涉及
经验池的初始质量依赖人工设计的 20 条种子经验，冷启动问题可能在新场景中出现
所有实验基于英文词汇，跨语言的隐喻生成和理解是一个完全未探索的方向
多模态场景中的隐喻（如视觉隐喻+语言隐喻的结合）具有很大的研究空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将隐喻处理引入多智能体博弈的策略沟通，开辟了全新方向
实验充分度: ⭐⭐⭐⭐ 两个游戏、多个 LLM、消融全面，但缺少更复杂游戏的验证
写作质量: ⭐⭐⭐⭐ 框架描述清晰，案例分析生动，但论文结构稍显冗长
价值: ⭐⭐⭐⭐⭐ 为 LLM 智能体的战略沟通能力提供了新范式，具有广泛的应用潜力