MUG: Multi-agent Undercover Gaming — Hallucination Removal via Counterfactual Test for Multimodal Reasoning¶

会议: AAAI 2026
arXiv: 2511.11182
代码: https://github.com/YongLD/MUG.git
领域: 多模态推理 / 幻觉缓解 / Multi-Agent
关键词: 多Agent博弈, 反事实测试, 幻觉检测, 卧底游戏, 主动推理

一句话总结¶

MUG 将多 Agent 辩论（MAD）重新定义为"谁是卧底"社交推理游戏——通过图像反事实编辑（修改参考图片）引入信息不对称，让一个 Agent 持有修改后的图片作为"卧底"，其他 Agent 通过推理和投票识别卧底（幻觉来源），在 HallusionBench 上 Qwen2.5VL-7B 从 46.4% 提升到 53.8%。

研究背景与动机¶

领域现状：多 Agent 辩论（MAD）通过多个 LLM Agent 的结构化讨论来增强推理质量，是缓解幻觉的有前途方向。
现有痛点：MAD 存在三个根本限制——(1) 依赖"所有辩手都是理性的"这一不现实假设——当 Agent 本身就容易产生幻觉时，共识可能是错误的共识；(2) 依赖统计共识（如多数投票），缺乏真正的事实核查机制；(3) Agent 是被动回答问题，而非主动探究和验证。
核心矛盾：MAD 的共识机制本质是"群体统计"——如果多数 Agent 都犯同样的幻觉错误，共识就会收敛到错误答案。需要一种能识别"谁在幻觉"而非"谁在少数"的机制。
本文要解决什么？ 如何在不假设 Agent 理性的前提下，检测和排除产生幻觉的 Agent？
切入角度：受"谁是卧底"社交推理游戏启发——通过给一个 Agent 提供修改后的图片（反事实证据），制造可验证的信息不对称。由于编辑是已知的，可以获得"ground truth"来判断谁是卧底（幻觉者）。
核心 idea 一句话：用图像反事实编辑制造信息不对称+卧底游戏机制来检测幻觉Agent，用事实核查替代统计共识。

方法详解¶

整体框架¶

两阶段博弈：(1) 卧底检测阶段——N 个 Agent 中，一个被分配反事实图片 \(I^-\) 作为卧底（Role=U），其他持原图 \(I^+\)（Role=D）。多轮推理+投票淘汰最可疑的 Agent。(2) 总结阶段——卧底被淘汰后，剩余 Agent 基于 \(I^+\) 协作生成最终答案。

关键设计¶

反事实图像生成 \(I^-\):
做什么：对原始参考图像进行精细编辑，引入可控的语义变化
核心思路：先用 LLM 分析问题类型→映射到编辑类型（"多少个"→数量编辑、"什么物体"→物体替换、"什么颜色"→属性修改）。构建场景图识别编辑目标，然后用 Step1X-Edit 模型执行编辑。编辑必须满足三个约束：最大化视觉相似性 \(C_{vs}\)（ViT 嵌入）、语义一致性 \(C_{sc}\)（CLIP 相似度）、自然性 \(C_{na}\)（FID 分数）
设计动机：编辑要足够微妙（不让卧底太容易被发现），但也要有实际语义差异（能区分推理正确性）
卧底检测博弈:
做什么：通过多轮推理+投票识别并淘汰卧底 Agent
推理阶段：每个 Agent 基于自己的图像（\(I^+\) 或 \(I^-\)）进行推理。正常 Agent 目标是提供准确推理+识别不一致；卧底 Agent 目标是生成看似合理的推理+避免被发现
投票阶段：每个 Agent 根据 4 个因素投票——不一致性分数 \(\phi_1\)、偏离共识分数 \(\phi_2\)、细节准确性 \(\phi_3\)、行为可疑性 \(\phi_4\)。多数票淘汰最可疑 Agent
设计动机：信息不对称创造了战略张力——正常 Agent 通过提供具体细节证明自己看到的是 \(I^+\)，卧底 Agent 必须在合理性和准确性之间平衡
三维创新（vs 传统 MAD）:
事实核查 vs 统计共识：反事实测试提供了 ground truth 来验证谁在幻觉，而非仅靠多数投票
跨证据 vs 单一来源：通过修改图像动态生成额外证据来源，传统 MAD 只用一张原图
主动推理 vs 被动回答：Agent 需要主动提问、验证、辩论，而非仅回答给定问题

实验关键数据¶

主实验¶

方法	MMMU	MMStar	HallusionBench Avg	POPE Acc
Qwen2.5VL-7B (baseline)	45.0	61.2	46.4	87.4
Qwen2.5VL-7B (Self-Refine)	45.8	61.5	48.8	85.9
Qwen2.5VL-7B (MAD-Vote)	44.7	57.4	37.8	80.0
Qwen2.5VL-7B (MAD-Judge)	47.4	62.3	50.2	85.2
Qwen2.5VL-7B (MUG)	50.3	63.8	53.8	88.4

消融实验¶

配置	MMStar	HallusionBench	MMMU
MUG Full	63.80	53.80	50.33
w/o 反事实编辑	62.31 (-1.49)	50.19 (-3.61)	49.25 (-1.08)
w/o 卧底机制	62.23 (-1.57)	49.31 (-4.49)	47.66 (-2.67)

关键发现¶

MUG 使 Qwen2.5VL-7B 在 MMMU 上超过 GPT-4v（50.3 vs 53.8→后者是更大模型），MAD-Vote 反而降低性能（-7.4% on MMMU）
HallusionBench 提升最显著——MUG +7.4% vs baseline，而 MAD-Vote -8.6%——说明 MAD 在幻觉检测上可能有害
卧底机制比反事实编辑更重要（去掉后下降更大），说明"博弈动态"的贡献大于"额外证据"
1 轮检测效果最好（50.3/63.8/69.4），更多轮反而下降——说明长时间辩论可能导致正常 Agent 被误导
额外时间开销仅 0.91 秒/样本（3.74 vs MAD 2.35），性价比极高

亮点与洞察¶

社交推理游戏 → AI 幻觉检测 的类比极其巧妙：卧底游戏的核心——"通过信息不对称识别异常者"——完美映射到"通过反事实测试识别幻觉 Agent"
反事实编辑提供 ground truth：这是对传统 MAD 最本质的改进——从"群体统计"到"可验证事实"的转变
MAD-Vote 可能有害：实验显示在 HallusionBench 上 MAD-Vote 从 46.4% 降到 37.8%——如果多个 Agent 都幻觉，投票就会放大错误。MUG 通过反事实测试避免了这个问题
1 轮最优的发现：与直觉相反，更多辩论轮次反而降低性能——因为卧底 Agent 的论点可能说服正常 Agent（特别在推理类问题上）

局限性 / 可改进方向¶

反事实图像生成质量不稳定——存在过于微妙、编辑失败、不自然等失败模式
当前随机选择卧底 Agent，可以改为基于初始回答不确定性来选择
仅支持基于图像的反事实测试，文本级反事实未探索
博弈轮次超过 1 轮时正常 Agent 可能被误导——需要更鲁棒的"免疫"机制
计算复杂度随 Agent 数量和轮次增加

评分¶

新颖性: ⭐⭐⭐⭐⭐ 社交推理游戏+反事实编辑的组合非常创新，思路独特
实验充分度: ⭐⭐⭐⭐ 4 个 benchmark、多基线对比、消融、博弈动态分析
写作质量: ⭐⭐⭐⭐ 游戏类比生动，形式化定义清晰
价值: ⭐⭐⭐⭐⭐ 对 MAD 范式的根本性改进——从统计共识到可验证事实核查