Improve Rule Retrieval and Reasoning with Self-Induction and Relevance ReEstimate¶
会议: ACL 2025
arXiv: 2505.10870
代码: 无
领域: NLP / 检索与推理
关键词: 规则检索, 语义对齐, 自归纳, 重排序, LLM推理
一句话总结¶
针对规则检索中查询(具体实例化事实)与规则(抽象变量形式)之间的语义鸿沟,提出 SIAR(自归纳增强检索)和 R3(规则相关性重评估)两种方法,通过将查询映射到规则语义空间并重新评估规则相关性,显著提升规则检索和下游推理性能。
研究背景与动机¶
基于规则的推理是 LLM 的重要能力增强方式:先从经验中总结规则,再检索相关规则辅助推理。然而,现有研究主要关注规则的生成和应用,规则检索这一关键中间环节被严重忽视。
规则检索与传统知识检索有本质区别: - 传统检索: 查询和目标段落通常共享关键词或语义相似性(如"美国总统是谁" → 包含"美国总统"的段落) - 规则检索: 查询是具体的实例化事实("加州环境法规定必须回收"),而规则是抽象变量形式("如果法规 Y 适用于地区 Z,则地区 Z 的人 X 必须遵守法规 Y"),两者之间存在巨大语义鸿沟
作者通过实验展示了这个问题的严重性:使用标准检索方法检索规则辅助推理,反而导致性能下降(相比不用规则)。但如果直接提供正确规则(golden rule),7B 模型可提升 31.54%,72B 模型可提升 23.67%。这说明不是规则没用,而是检索不准。
方法详解¶
整体框架¶
方法嵌入标准的 retrieve-then-reason 流程: 1. 检索前: SIAR 利用 LLM 自归纳生成假设规则,用于查询增强 2. 检索后 / 推理前: R3 利用 LLM 重新评估检索到的规则的相关性并重排序 3. 推理: 用重排后的 top-k 规则辅助 LLM 推理
关键设计¶
1. SIAR: 自归纳增强检索 (Self-Induction Augmented Retrieval)¶
功能: 在检索前,通过 LLM 的自归纳能力,从查询中生成一个假设性规则(self-induced rule, SI),然后用这个 SI 增强检索查询。
核心思路: 如果将查询集合和规则集合视为两个几乎不重叠的语义子空间——前者由实例化的具体事实构成,后者由抽象的概念知识构成——那么自归纳的作用就是将查询尽可能投射到规则子空间中、使查询能在检索时与具有相似底层逻辑的规则更好匹配。
具体实现: 使用 few-shot in-context learning 引导 LLM 对查询进行归纳抽象: - 总结查询中的事实 - 抽象具体实体为变量 - 假设潜在的推理关系
两种使用方式: - SIAR (w/ SI): 仅用 SI 作为新查询 - SIAR (w/ SI + input): 拼接 SI 和原始查询作为新查询
设计动机: 传统检索(无论稀疏还是密集)直接用原始查询匹配抽象规则,由于语义空间不匹配,效果很差。自归纳相当于做了一次"空间转换",将查询从事实空间映射到规则空间。
2. R3: 规则相关性重评估 (Rule Relevance ReEstimate)¶
功能: 对 SIAR 检索到的 top-n 规则列表,用 LLM 重新评估每条规则与原始查询的相关性,然后重排序并选取 top-k。
核心思路: 检索器只能评估语义相似度,无法判断规则是否真的能帮助推理。R3 通过让 LLM 评估两个维度来弥补:(1) 规则中的抽象知识能否被实例化为查询中的事实?(2) 规则是否有助于推理?
具体实现: 受 RankGPT 启发,直接 prompt LLM 输出重排后的规则列表(而非逐对比较),减少调用次数加速处理。
设计动机: SIAR 虽然能改善检索排名,但 LLM 的归纳能力有限,面对复杂查询仍可能产出不够准确的 SI。R3 提供了第二层保障,从应用层面(而非语义层面)评估规则质量。
方法特点¶
整个方法基于 prompting,不需要任何训练,通用性强,可以搭配不同的检索器(稀疏/密集/LLM检索器)和不同规模的 LLM 使用。
实验关键数据¶
主实验:检索性能(自然语言规则库)¶
| 方法 | CLUTRR R@1 | ULogic R@1 | CAIL2018 R@1 |
|---|---|---|---|
| Vanilla (sparse) | 6.67 | 68.91 | 25.30 |
| +SIAR (72B, SI+input) | 11.06 | 74.82 | 74.70 |
| +SIAR-R3 (72B, SI+input) | 14.31 | 92.17 | 86.14 |
| Vanilla (dense) | 2.10 | 30.36 | 9.04 |
| +SIAR (72B, SI) | 11.74 | 64.82 | 76.51 |
| +SIAR-R3 (72B, SI) | 14.03 | 88.19 | 81.32 |
主实验:推理性能¶
| 方法 | CLUTRR | ULogic | CAIL2018 |
|---|---|---|---|
| Direct (无规则) | 38.36 | 93.01 | 80.12 |
| Golden Rule | 89.03 | 94.58 | 98.90 |
| Vanilla sparse retrieval | 37.60 | 93.13 | 73.49 |
| SIAR (sparse) | 49.14 | 94.21 | 86.14 |
| SIAR-R3 (sparse) | 51.71 | 95.90 | 86.75 |
| Vanilla dense retrieval | 30.53 | 90.00 | 72.89 |
| SIAR (dense) | 49.81 | 95.06 | 86.75 |
| SIAR-R3 (dense) | 51.05 | 95.78 | 84.94 |
(以上均为 Qwen2.5-72B-Instruct 的结果)
消融实验¶
| 因素 | 发现 |
|---|---|
| 开源 vs 闭源 LLM | Qwen2.5-72B 与 GPT-4o 表现相当,部分场景更优 |
| 72B vs 7B | 大模型的归纳和重排能力显著更强 |
| 稀疏 vs 密集检索 | 大多数场景稀疏检索更优(关键词匹配对规则更有效) |
| SI vs SI+input | 稀疏检索适合 SI+input,密集检索适合 SI only |
| 不同检索器 | BM25/BGE/BGE-Gemma2 均有显著提升 |
| 规则库翻倍 | 规则数量加倍后方法仍然有效 |
关键发现¶
- 规则对推理的价值巨大但检索是瓶颈: Golden rule 带来 23-31% 的提升,但 vanilla 检索反而降低性能
- SIAR 在密集检索上提升更大: 密集检索 R@1 从 2.10 提升到 11.74(+9.64),说明密集检索受语义鸿沟影响更大
- R3 在简单数据集上更有效: ULogic 和 CAIL2018 上 R3 带来巨大提升(最高 +43.25 R@1),但在 CLUTRR 上仅大模型获益
- 稀疏检索通常优于密集检索: 规则场景中很多概念在密集向量空间中表示不佳,关键词匹配反而更精准
亮点与洞察¶
- 问题定义清晰且重要: 系统性地指出规则检索与传统知识检索的本质区别(具体 vs 抽象的语义鸿沟),是一个被忽视但关键的问题
- 理论直觉优雅: "将查询从事实子空间映射到规则子空间"的思路简洁有力,类似于 HyDE 的思想但应用于规则场景
- 零训练、高通用性: 纯 prompting 方法,可即插即用到任何 retrieve-then-reason 流程
- 分析深入: 对不同检索器类型、规则格式、模型规模的交叉分析提供了丰富的实践指导
局限与展望¶
- 规则库规模有限: 最大仅 1048 条规则,与真实场景(如法律法规数万条)差距大
- 依赖 LLM 归纳能力: 小模型(7B)的自归纳质量明显不足,R3 也无法有效弥补
- 计算成本: SIAR 需要额外一次 LLM 推理,R3 需要再一次——对于大量查询场景可能不经济
- 未探索规则组合: 真实推理可能需要多条规则的链式组合,当前仅检索 top-k 独立规则
- 可考虑训练轻量检索模型: 用 SIAR 生成的 SI 作为训练信号,微调密集检索器以内化空间映射能力
相关工作与启发¶
- HyDE (Gao et al.): 用 LLM 生成假设文档再检索,SIAR 可视为其在规则领域的变体
- RankGPT: R3 的重排思路受其启发,但评估标准从语义相关性扩展到推理有用性
- ExpNote/Hypothesis Search: 规则生成和应用的相关工作,本文聚焦被忽视的检索环节
- 启发: 当检索目标与查询属于不同语义空间时,"先生成再检索"的范式具有普遍价值
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统研究规则检索问题,SIAR 的空间映射思路有理论美感
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种检索器、多种模型规模的交叉实验覆盖全面
- 写作质量: ⭐⭐⭐⭐ — Figure 1 清晰展示问题,方法描述简洁
- 价值: ⭐⭐⭐⭐ — 指出重要问题并提供有效解决方案,但规则库规模限制了影响力
相关论文¶
- [ACL 2025] Learning to Reason Over Time: Timeline Self-Reflection for Temporal Reasoning
- [ACL 2025] Adaptive Retrieval without Self-Knowledge? Bringing Uncertainty Back Home
- [ACL 2025] Micro-Act: Mitigate Knowledge Conflict in QA via Actionable Self-Reasoning
- [ACL 2025] Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks
- [ACL 2025] Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education