跳转至

ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting

会议: AAAI 2026
arXiv: 2603.01417
代码: 无
领域: 对齐RLHF / 信息检索与RAG
关键词: query rewriting, retrieval feedback, style-aware, data-centric IR, RAG

一句话总结

提出一个检索反馈驱动的数据集生成框架,通过识别检索失败case、LLM风格化改写、重检索验证三步闭环,自动构建高质量的风格感知查询改写数据集,为训练检索对齐的改写模型提供数据基础。

研究背景与动机

  1. 领域现状: 检索增强生成(RAG)系统在实际应用中广泛使用,但用户查询的风格(口语化、非正式)与领域文档的风格(正式、专业术语)之间存在巨大鸿沟,导致检索失败。
  2. 现有痛点: 现有查询改写方法主要关注语义保真而忽视了目标语料库的风格特征(措辞、语气、结构),导致改写后的查询仍然偏离文档分布,检索效果次优。
  3. 核心矛盾: 风格感知的查询改写需要大量高质量训练数据,但现有数据集(如CANARD、QReCC)只包含语义改写,缺乏检索反馈和风格变化信息。同时,现有方法将反馈仅用于训练阶段的强化学习优化,而非数据构建阶段。
  4. 本文要解决什么? 如何自动化地构建一个同时编码检索反馈和文档风格对齐信息的高质量查询改写数据集。
  5. 切入角度: 将检索反馈作为数据筛选信号而非训练信号,通过"失败识别→LLM改写→验证过滤"的闭环流程构建数据集。
  6. 核心idea一句话: 用检索失败case作为改写起点,让LLM参照正确文档风格改写查询,只保留通过重检索验证的成功改写对。

方法详解

整体框架

ReFeed框架由四个阶段组成:初始检索→LLM引导改写→重检索验证→数据集组装。整体思路是一个"发现问题→修复问题→验证修复"的闭环流程。

关键设计

  1. 初始检索与失败识别 (Initial Retrieval)
  2. 做什么:对QA数据集中每个查询进行dense retrieval,标记检索失败case(正确文档不在top-k内)
  3. 核心思路:使用e5-base-v2嵌入模型 + FAISS索引,检索top-3文档,ground-truth不在其内则标为miss
  4. 设计动机:失败case蕴含最有价值的改写机会,从这些case出发能产生最大的检索增益

  5. LLM引导的风格化改写 (LLM-Guided Rewriting)

  6. 做什么:用LLM对每个miss case进行风格化查询改写
  7. 核心思路:prompt包含三个关键信息——原始查询 \(q_i\)、检索到的错误文档 \(D_{\text{neg}}\)、正确文档 \(D_{\text{pos}}\)。LLM同时看到正负样本,隐式学习目标文档的语言和风格特征
  8. 设计动机:通过对比正负文档的风格差异,让改写结果自然对齐目标文档的语言模式,而非单纯的语义同义替换

  9. 重检索验证 (Verification via Re-Retrieval)

  10. 做什么:将改写后查询重新检索,验证正确文档是否出现在top-k中
  11. 核心思路:只保留验证成功的改写对,确保每个数据点都经过实证验证
  12. 设计动机:形成闭环质量保证,使数据集中每个(原始,改写)对都具有可衡量的检索增益

损失函数 / 训练策略

ReFeed本身是数据生成框架而非模型训练方法。生成的数据集可用于: - Few-shot prompting: 检索最相关的5个改写示例作为in-context demonstration - Supervised Fine-Tuning (SFT): 直接用于训练小型改写模型

实验关键数据

主实验 - 数据集构建统计

指标 数值
SQuAD训练集总量 ~87k
初始miss case ~16k (18.7%)
LLM改写成功率 67.5%
最终验证通过对数 11,044
使用检索模型 e5-base-v2
LLM GPT-5 (temperature=1.0)

Few-shot验证效果

原始查询 改写查询 排名变化
Time Lord对手查询 改写后更专业化 未进top-10 → Top-2
部落遗址查询 扩展为考古学表述 Top-8 → Top-1
庆典遗漏内容查询 保持语义精简化 Top-5 → Top-2
帝国主义运输方式 改为帝国扩张表述 未进top-10 → Top-1

关键发现

  • LLM的改写策略具有上下文适应性:简单查询会扩展清晰化,复杂查询会精简对齐文档风格
  • 即使不做微调,仅用few-shot即可改善检索排名,说明数据集本身具有实用价值
  • 对于风格差异大的查询(描述性表达、隐含实体、口语化措辞),改写效果最为显著
  • SQuAD上18.7%的miss rate表明即使是经典数据集也存在显著的风格错配问题
  • 67.5%的改写成功率说明并非所有检索失败都能通过风格改写解决,部分可能涉及更深层的语义匮配

亮点与洞察

  • 数据中心的IR视角: 将检索反馈从"训练信号"重新定位为"数据生成信号",开辟了新的方法论方向
  • 风格vs语义: 首次在查询改写中明确区分风格对齐和语义保真,指出现有方法的盲区
  • 自适应改写: LLM不是简单地扩展或压缩查询,而是根据检索上下文进行差异化调整——这是数据驱动的涌现行为
  • 闭环验证机制: 通过re-retrieval确保数据质量,避免了传统生成方法中缺乏质量保证的问题- Prompt设计的注意事项: 明确要求LLM“不要复制正确文档的具体信息”,仅基于原始查询意图改写,防止信息泄漏

局限性 / 可改进方向

  • 仅在SQuAD(简单事实性问答)上验证,缺乏复杂领域(如技术手册、客服日志)的评估
  • Few-shot验证是定性的,缺乏大规模定量评估(如全量测试集上的检索指标)
  • 未进行SFT训练实验来验证数据集对训练小型改写模型的效果
  • 检索模型固定为e5-base-v2,未探索对不同检索器的泛化性
  • 查询改写的迭代次数和策略可以进一步优化
  • 未考虑多轮对话场景中的查询改写需求
  • 改写成本较高(使用GPT-5),未探索更轻量的改写模型替代方案
  • top-k阈值固定为3,未分析不同k值对miss rate和数据质量的影响

相关工作与启发

  • MaFeRw (Wang et al. 2024): 将多方面反馈(检索、生成、文档相似度)整合到改写优化中 → 可与ReFeed的数据驱动方法互补
  • REPLUG (Shi et al. 2023): 用检索反馈增强黑盒LM → ReFeed的数据构建思路可为这类方法提供更好的改写训练数据
  • RaFe (Mao et al. 2024): 利用reranker排序信号微调改写器 → 反馈在训练中使用,而ReFeed将反馈前置到数据构建
  • CANARD/QReCC: 大规模会话改写数据集,但缺乏检索反馈和风格信息 → ReFeed数据集可作为互补资源
  • 对RAG系统的启示: 在部署RAG前,可用此框架自动发现并修复检索gap,形成持续改进的闭环
  • 未来方向: 作者计划用ReFeed数据集训练小型语言模型(SLM)改写器,并集成选择性改写模块判断是否需要改写

评分

  • 新颖性: ⭐⭐⭐⭐ 检索反馈驱动数据构建的思路新颖,但整体pipeline相对直觉
  • 实验充分度: ⭐⭐⭐ 数据构建流程详尽,但下游验证不足,缺少SFT训练和多领域评估
  • 写作质量: ⭐⭐⭐⭐ Pipeline逻辑清晰,动机阐述到位
  • 价值: ⭐⭐⭐⭐ 对实际RAG系统有直接实用价值,方法论有推广潜力