DREAM: Completing Missing Annotation via Multi-Agent Debate for Accurate and Scalable Relevance Assessment¶

会议: ICLR 2026
arXiv: 2602.06526
代码: https://github.com/DISL-Lab/DREAM-ICLR-26 (有)
领域: 人类理解 / NLP理解 / 信息检索
关键词: 相关性标注, 多Agent辩论, IR基准, 缺失标注, 成本效益

一句话总结¶

提出 DREAM 框架，用多轮 LLM 辩论（对立立场）来完成 IR 基准中大量缺失的相关性标注，发现了原有标注中 428% 的额外相关文档，仅需 3.5% 的人类介入率即达到 95.2% 准确率。

研究背景与动机¶

领域现状：IR（信息检索）基准通常只对每个查询标注少量文档的相关性，大量潜在相关的文档未被标注——这导致评测不公平（模型可能检索到了相关文档但因未标注而被判错）。
现有痛点：人工完全标注成本极高，自动标注（单 LLM 判断）准确率不够。
核心矛盾：需要在成本和准确率之间找到平衡——完全人工标注太贵，完全自动标注不准。
本文要解决什么？ 高效且准确地补全 IR 基准中缺失的相关性标注。
切入角度：多 Agent 辩论——让两个 LLM 以对立立场（"相关" vs "不相关"）辩论，达成一致则采纳，不一致则升级给人类。
核心idea一句话：用对抗式辩论替代单一判断来提升标注质量，仅在辩论不一致时引入人类。

方法详解¶

整体框架¶

两阶段辩论：(1) 两个 LLM 分别被指派"支持相关"和"支持不相关"的立场，多轮辩论；(2) 达成一致则自动标注，不一致则升级给人类审核员。

关键设计¶

对立立场辩论:
做什么：强制两个 Agent 从相反角度论证
核心思路：Agent A 被指令"论证此文档与查询相关"，Agent B 被指令"论证此文档与查询不相关"。多轮交换论点后投票。如果从对立立场出发仍达成一致，说明答案比较确定。
设计动机：消除 LLM 的位置偏差和确认偏误——如果模型总是偏向"相关"，强制对立立场可以暴露真正的边界案例。
一致性升级:
做什么：辩论不一致时升级给人类
核心思路：多轮辩论后如果两个 Agent 仍然不一致，标记为"需要人类判断"。这些通常是真正有歧义的案例。
设计动机：将有限的人类精力集中在最有歧义的案例上，最大化标注效率。

实验关键数据¶

主实验¶

指标	数值
自动标注准确率	95.2%
人类介入率	3.5%
新发现的相关文档数	29,824
占原有标注的比例	428%（原有 6,976 个）
RAGAlign 改进	0.70 -> 0.84

关键发现¶

发现的缺失相关文档是原有标注的 4.28 倍，说明原有 IR 基准严重不完整
补全标注后多个 RAG 系统的评测排名发生显著变化
辩论式标注比单 LLM 判断准确率高 8%+
3.5% 的人类介入率在成本和质量之间达到了极好的平衡

亮点与洞察¶

IR 基准的审计：揭示了现有 IR 基准中 428% 的缺失标注，说明当前的 RAG 评测可能系统性偏差。
辩论比投票好：多 Agent 辩论比简单的多数投票更有效，因为对立立场迫使 LLM 考虑反面证据。
极高的自动化率：96.5% 的案例不需要人类，适合大规模标注。

局限性 / 可改进方向¶

辩论增加了 LLM 调用次数（每对需要多轮辩论），相比单次判断的成本更高
依赖 LLM 的生成质量——如果 LLM 在特定领域完全不懂，辩论质量也会差
目前仅在英文 IR 基准上验证，多语言场景未测试

评分¶

新颖性: ⭐⭐⭐⭐ 多Agent辩论用于IR标注是新颖的
实验充分度: ⭐⭐⭐⭐⭐ 大规模标注实验 + 下游RAG评测
写作质量: ⭐⭐⭐⭐ 问题分析深入
价值: ⭐⭐⭐⭐⭐ 揭示了IR基准的系统性缺陷并提供了解决方案