ComLQ: Benchmarking Complex Logical Queries in Information Retrieval¶

会议: AAAI 2026
arXiv: 2511.12004
代码: https://github.com/xgl-git/ComLQR-main
领域: 信息检索 / 评测基准
关键词: 复杂逻辑查询, 否定处理, 子图引导提示, IR基准, 一阶逻辑

一句话总结¶

构建了首个面向复杂逻辑查询的信息检索基准 ComLQ（含合取、析取、否定等 14 种查询类型），并提出子图引导的 LLM 数据合成方法和否定一致性评估指标 LSNC，揭示现有检索器在逻辑推理尤其是否定建模上的严重不足。

研究背景与动机¶

领域现状：信息检索系统是应对信息过载的基石，广泛用于推荐、问答等场景。现有 IR 基准（MS-MARCO、TREC、BEIR 等）主要关注语义上类似于单跳或多跳关系的简单查询。
现有痛点：
真实用户查询常涉及复合逻辑推理（合取 ∧、析取 ∨、否定 ¬ 及其组合），但超过 93% 的现有基准查询是简单查询。
复杂逻辑查询在知识库问答（KBQA）领域已有研究，但 IR 领域几乎空白——IR 是在非结构化文本上做集合运算，难度远高于在结构化三元组上做推理。
现有检索器严重依赖词共现，面对否定查询时容易检索到包含否定关键词（如"American"）的不相关段落。
核心矛盾：IR 社区缺乏一个能系统性、细粒度地评估检索器逻辑推理能力的基准，尤其无法量化否定处理能力。
本文要解决什么？ 创建一个涵盖 14 种一阶逻辑查询类型的 IR 基准，并提出合适的评估指标。
切入角度：借助 LLM 生成+子图引导提示设计+专家验证，确保每条查询的逻辑结构精准且有据可查。
核心idea一句话：用子图指示器引导 LLM 从段落中生成特定逻辑结构的查询，构建首个全面的复杂逻辑查询 IR 基准，揭示检索器的逻辑推理短板。

方法详解¶

整体框架¶

ComLQ 的构建分三步：(1) 段落选择——从 Wikipedia dump 中选择相关段落；(2) 子图引导的查询生成——设计含子图指示器的提示，引导 LLM 按指定逻辑结构生成查询；(3) 专家验证——三名标注员对每个查询-段落对做结构一致性和证据分布验证。

关键设计¶

查询类型体系：
采用标准一阶逻辑查询定义，4 种基本操作：投影 p（关系路径追踪）、交集 i（合取）、并集 u（析取）、否定 n。
共 14 种查询类型：9 种无否定（1p/2p/3p/2i/3i/pi/ip/2u/up）+ 5 种含否定（2in/3in/inp/pin/pni）。
总计 2909 条查询 + 11251 条候选段落，含否定查询占 33.8%。
设计动机：完整覆盖投影、交集、并集、否定及其组合，是首个如此细粒度的 IR 逻辑查询基准。
子图引导提示（Subgraph-Guided Prompt）：
LLM 仅凭自然语言描述难以一致地生成符合特定逻辑结构的查询。
在提示中加入子图指示器——用符号化的子图模式显式表达目标查询结构。例如 pni 型查询的子图指示器为：{?z | (?x, R1, ?y) ∧ (?y, R2, ?z)} ∩ {?z | ¬(?w, R3, ?z)}。
完整提示由三部分组成：查询定义 + 子图指示器 + 示例。
设计动机：符号化子图为 LLM 提供精确的结构蓝图，结合 LLM 的自然语言生成能力，实现结构受控的查询生成。
专家验证双重标准：
结构一致性：三名标注员检查生成查询是否严格符合目标逻辑结构。提供辅助三元组帮助判断。例如负例："IBM PC 考虑但未使用的处理器"看似是 pin 结构，但实际不严格符合。
证据分布：对基于多段落生成的查询，验证支持证据是否确实分布在不同段落中（而非全集中在一段）。
两步均用多数投票达成共识。
数据标注：3 级评分（0-不相关、1-部分相关/证据分布于多段落、2-完全相关/单段落包含完整答案）。
否定一致性评估指标 LSNC@K：
标准 nDCG 和 mAP 衡量的是整体相关性，无法专门评估检索器对否定条件的处理能力。
LSNC@K = -log((Σ V(d) + 1) / (K + 1)) / log(K + 1)，其中 V(d) 是指示函数，检索到的段落违反否定条件时为 1。
LSNC@K 越高说明 top-K 中违反否定条件的段落越少。
设计动机：直接量化"检索器是否把应排除的内容排在前面"，填补现有指标在否定评估上的空白。

损失函数 / 训练策略¶

本文是基准构建和评测工作，无需训练。实验在零样本设置下进行，评估多种检索模型。

实验关键数据¶

主实验（nDCG@10，%）¶

模型	1p	2i	3i	pin	pni	总体
BM25	66.1	63.5	60.3	32.4	31.7	50.5
BGE	66.3	60.1	58.2	33.3	34.8	47.4
InteR	71.8	63.6	62.6	34.6	37.5	55.7
Contriever	70.2	60.7	61.2	32.1	35.5	53.4
AGR	74.3	62.3	62.7	35.5	33.8	54.3

所有检索器在含否定的查询（2in/3in/inp/pin/pni）上表现大幅下降。没有任何模型在所有查询类型上一致最优。

LSNC@100 评估（否定查询）¶

模型	2in	3in	inp	pin	pni
BM25	32.2	29.0	30.5	29.3	27.4
BGE	30.2	31.8	26.6	27.2	25.7
HyDE	27.8	26.0	23.1	24.4	24.9

所有模型 LSNC@100 分数很低（多在 25-35% 范围），说明 top-100 检索结果中大量段落违反了否定条件。

关键发现¶

复杂度递增则性能递减：1p→2p→3p，2i→3i，性能持续下降，揭示检索器对复合推理的局限。
否定是最大短板：含否定的查询性能一致低于相同结构的非否定版本。
操作顺序影响大：先投影再交集（pi/pin/pni）比先交集再投影（ip/inp）更难，暗示检索器对中间步骤组合推理能力弱。
稀疏检索器仍然竞争力：BM25 在多种查询类型上不输甚至优于稠密检索器，挑战了"稠密普遍优于稀疏"的假设。

亮点与洞察¶

填补重要空白：首个系统性覆盖 14 种逻辑查询类型的 IR 基准，在 IR 社区有独特价值。
子图引导提示设计精巧：符号化子图+LLM 生成+人工验证的流水线既确保质量又可扩展。
LSNC 指标实用：现有指标确实无法专门评估否定处理，该指标设计合理且揭示了严重问题。
发现具有建设性：不仅揭示问题，还暗示了改进方向——需要针对不同逻辑结构设计专用检索策略。

局限性 / 可改进方向¶

仅用 Wikipedia 作为语料，领域覆盖有限（虽然构建流程声称可迁移到其他领域）。
查询由 LLM 生成再人工验证，而非完全来自真实用户，可能存在分布偏差。
仅做零样本评估，未测试经过复杂查询微调后检索器能提升多少。
数据集稍小（2909 查询），更大规模+更多领域的版本可能更有说服力。
LSNC 只评估否定，缺乏针对合取和析取的专用指标。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首创性基准，问题定义清晰，子图引导提示原创
实验充分度: ⭐⭐⭐⭐ 7 种检索模型、14 种查询类型，但缺少微调实验
写作质量: ⭐⭐⭐⭐⭐ 问题动机论述透彻，例子直观，指标设计严谨
价值: ⭐⭐⭐⭐⭐ 为 IR 社区开辟了复杂逻辑查询评估的新赛道