ComLQ: Benchmarking Complex Logical Queries in Information Retrieval¶
会议: AAAI 2026
arXiv: 2511.12004
代码: https://github.com/xgl-git/ComLQR-main
领域: 信息检索 / 评测基准
关键词: 复杂逻辑查询, 否定处理, 子图引导提示, IR基准, 一阶逻辑
一句话总结¶
构建了首个面向复杂逻辑查询的信息检索基准 ComLQ(含合取、析取、否定等 14 种查询类型),并提出子图引导的 LLM 数据合成方法和否定一致性评估指标 LSNC,揭示现有检索器在逻辑推理尤其是否定建模上的严重不足。
研究背景与动机¶
- 领域现状:信息检索系统是应对信息过载的基石,广泛用于推荐、问答等场景。现有 IR 基准(MS-MARCO、TREC、BEIR 等)主要关注语义上类似于单跳或多跳关系的简单查询。
- 现有痛点:
- 真实用户查询常涉及复合逻辑推理(合取 ∧、析取 ∨、否定 ¬ 及其组合),但超过 93% 的现有基准查询是简单查询。
- 复杂逻辑查询在知识库问答(KBQA)领域已有研究,但 IR 领域几乎空白——IR 是在非结构化文本上做集合运算,难度远高于在结构化三元组上做推理。
- 现有检索器严重依赖词共现,面对否定查询时容易检索到包含否定关键词(如"American")的不相关段落。
- 核心矛盾:IR 社区缺乏一个能系统性、细粒度地评估检索器逻辑推理能力的基准,尤其无法量化否定处理能力。
- 本文要解决什么? 创建一个涵盖 14 种一阶逻辑查询类型的 IR 基准,并提出合适的评估指标。
- 切入角度:借助 LLM 生成+子图引导提示设计+专家验证,确保每条查询的逻辑结构精准且有据可查。
- 核心idea一句话:用子图指示器引导 LLM 从段落中生成特定逻辑结构的查询,构建首个全面的复杂逻辑查询 IR 基准,揭示检索器的逻辑推理短板。
方法详解¶
整体框架¶
ComLQ 的构建分三步:(1) 段落选择——从 Wikipedia dump 中选择相关段落;(2) 子图引导的查询生成——设计含子图指示器的提示,引导 LLM 按指定逻辑结构生成查询;(3) 专家验证——三名标注员对每个查询-段落对做结构一致性和证据分布验证。
关键设计¶
- 查询类型体系:
- 采用标准一阶逻辑查询定义,4 种基本操作:投影 p(关系路径追踪)、交集 i(合取)、并集 u(析取)、否定 n。
- 共 14 种查询类型:9 种无否定(1p/2p/3p/2i/3i/pi/ip/2u/up)+ 5 种含否定(2in/3in/inp/pin/pni)。
- 总计 2909 条查询 + 11251 条候选段落,含否定查询占 33.8%。
-
设计动机:完整覆盖投影、交集、并集、否定及其组合,是首个如此细粒度的 IR 逻辑查询基准。
-
子图引导提示(Subgraph-Guided Prompt):
- LLM 仅凭自然语言描述难以一致地生成符合特定逻辑结构的查询。
- 在提示中加入子图指示器——用符号化的子图模式显式表达目标查询结构。例如 pni 型查询的子图指示器为:
{?z | (?x, R1, ?y) ∧ (?y, R2, ?z)} ∩ {?z | ¬(?w, R3, ?z)}。 - 完整提示由三部分组成:查询定义 + 子图指示器 + 示例。
-
设计动机:符号化子图为 LLM 提供精确的结构蓝图,结合 LLM 的自然语言生成能力,实现结构受控的查询生成。
-
专家验证双重标准:
- 结构一致性:三名标注员检查生成查询是否严格符合目标逻辑结构。提供辅助三元组帮助判断。例如负例:"IBM PC 考虑但未使用的处理器"看似是 pin 结构,但实际不严格符合。
- 证据分布:对基于多段落生成的查询,验证支持证据是否确实分布在不同段落中(而非全集中在一段)。
- 两步均用多数投票达成共识。
-
数据标注:3 级评分(0-不相关、1-部分相关/证据分布于多段落、2-完全相关/单段落包含完整答案)。
-
否定一致性评估指标 LSNC@K:
- 标准 nDCG 和 mAP 衡量的是整体相关性,无法专门评估检索器对否定条件的处理能力。
- LSNC@K = -log((Σ V(d) + 1) / (K + 1)) / log(K + 1),其中 V(d) 是指示函数,检索到的段落违反否定条件时为 1。
- LSNC@K 越高说明 top-K 中违反否定条件的段落越少。
- 设计动机:直接量化"检索器是否把应排除的内容排在前面",填补现有指标在否定评估上的空白。
损失函数 / 训练策略¶
本文是基准构建和评测工作,无需训练。实验在零样本设置下进行,评估多种检索模型。
实验关键数据¶
主实验(nDCG@10,%)¶
| 模型 | 1p | 2i | 3i | pin | pni | 总体 |
|---|---|---|---|---|---|---|
| BM25 | 66.1 | 63.5 | 60.3 | 32.4 | 31.7 | 50.5 |
| BGE | 66.3 | 60.1 | 58.2 | 33.3 | 34.8 | 47.4 |
| InteR | 71.8 | 63.6 | 62.6 | 34.6 | 37.5 | 55.7 |
| Contriever | 70.2 | 60.7 | 61.2 | 32.1 | 35.5 | 53.4 |
| AGR | 74.3 | 62.3 | 62.7 | 35.5 | 33.8 | 54.3 |
所有检索器在含否定的查询(2in/3in/inp/pin/pni)上表现大幅下降。没有任何模型在所有查询类型上一致最优。
LSNC@100 评估(否定查询)¶
| 模型 | 2in | 3in | inp | pin | pni |
|---|---|---|---|---|---|
| BM25 | 32.2 | 29.0 | 30.5 | 29.3 | 27.4 |
| BGE | 30.2 | 31.8 | 26.6 | 27.2 | 25.7 |
| HyDE | 27.8 | 26.0 | 23.1 | 24.4 | 24.9 |
所有模型 LSNC@100 分数很低(多在 25-35% 范围),说明 top-100 检索结果中大量段落违反了否定条件。
关键发现¶
- 复杂度递增则性能递减:1p→2p→3p,2i→3i,性能持续下降,揭示检索器对复合推理的局限。
- 否定是最大短板:含否定的查询性能一致低于相同结构的非否定版本。
- 操作顺序影响大:先投影再交集(pi/pin/pni)比先交集再投影(ip/inp)更难,暗示检索器对中间步骤组合推理能力弱。
- 稀疏检索器仍然竞争力:BM25 在多种查询类型上不输甚至优于稠密检索器,挑战了"稠密普遍优于稀疏"的假设。
亮点与洞察¶
- 填补重要空白:首个系统性覆盖 14 种逻辑查询类型的 IR 基准,在 IR 社区有独特价值。
- 子图引导提示设计精巧:符号化子图+LLM 生成+人工验证的流水线既确保质量又可扩展。
- LSNC 指标实用:现有指标确实无法专门评估否定处理,该指标设计合理且揭示了严重问题。
- 发现具有建设性:不仅揭示问题,还暗示了改进方向——需要针对不同逻辑结构设计专用检索策略。
局限性 / 可改进方向¶
- 仅用 Wikipedia 作为语料,领域覆盖有限(虽然构建流程声称可迁移到其他领域)。
- 查询由 LLM 生成再人工验证,而非完全来自真实用户,可能存在分布偏差。
- 仅做零样本评估,未测试经过复杂查询微调后检索器能提升多少。
- 数据集稍小(2909 查询),更大规模+更多领域的版本可能更有说服力。
- LSNC 只评估否定,缺乏针对合取和析取的专用指标。
相关工作与启发¶
- BEIR (Thakur et al. 2021) 是多域/多任务 IR 评估的标杆,但缺乏逻辑查询类型。
- NegConstraint (Xu et al. 2025) 仅关注否定约束查询,是 ComLQ 的一个子集。
- BetaE (Ren et al. 2020) 和 Query2Box (Ren et al. 2020) 在 KBQA 中研究复杂逻辑查询,本文将该思路迁移到非结构化文本检索。
- 对做 RAG 和 agentic retrieval 的研究者有直接启发:需要关注检索器对复合逻辑的处理能力。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首创性基准,问题定义清晰,子图引导提示原创
- 实验充分度: ⭐⭐⭐⭐ 7 种检索模型、14 种查询类型,但缺少微调实验
- 写作质量: ⭐⭐⭐⭐⭐ 问题动机论述透彻,例子直观,指标设计严谨
- 价值: ⭐⭐⭐⭐⭐ 为 IR 社区开辟了复杂逻辑查询评估的新赛道