ReFeed: Retrieval Feedback-Guided Dataset Construction for Style-Aware Query Rewriting¶

会议: AAAI 2026
arXiv: 2603.01417
代码: 无
领域: 对齐RLHF / 信息检索与RAG
关键词: query rewriting, retrieval feedback, style-aware, data-centric IR, RAG

一句话总结¶

提出一个检索反馈驱动的数据集生成框架，通过识别检索失败case、LLM风格化改写、重检索验证三步闭环，自动构建高质量的风格感知查询改写数据集，为训练检索对齐的改写模型提供数据基础。

领域现状: 检索增强生成(RAG)系统在实际应用中广泛使用，但用户查询的风格（口语化、非正式）与领域文档的风格（正式、专业术语）之间存在巨大鸿沟，导致检索失败。
现有痛点: 现有查询改写方法主要关注语义保真而忽视了目标语料库的风格特征（措辞、语气、结构），导致改写后的查询仍然偏离文档分布，检索效果次优。
核心矛盾: 风格感知的查询改写需要大量高质量训练数据，但现有数据集（如CANARD、QReCC）只包含语义改写，缺乏检索反馈和风格变化信息。同时，现有方法将反馈仅用于训练阶段的强化学习优化，而非数据构建阶段。
本文要解决什么？ 如何自动化地构建一个同时编码检索反馈和文档风格对齐信息的高质量查询改写数据集。
切入角度: 将检索反馈作为数据筛选信号而非训练信号，通过"失败识别→LLM改写→验证过滤"的闭环流程构建数据集。
核心idea一句话: 用检索失败case作为改写起点，让LLM参照正确文档风格改写查询，只保留通过重检索验证的成功改写对。

ReFeed框架由四个阶段组成：初始检索→LLM引导改写→重检索验证→数据集组装。整体思路是一个"发现问题→修复问题→验证修复"的闭环流程。

初始检索与失败识别 (Initial Retrieval)
做什么：对QA数据集中每个查询进行dense retrieval，标记检索失败case（正确文档不在top-k内）
核心思路：使用e5-base-v2嵌入模型 + FAISS索引，检索top-3文档，ground-truth不在其内则标为miss
设计动机：失败case蕴含最有价值的改写机会，从这些case出发能产生最大的检索增益
LLM引导的风格化改写 (LLM-Guided Rewriting)
做什么：用LLM对每个miss case进行风格化查询改写
核心思路：prompt包含三个关键信息——原始查询 \(q_i\)、检索到的错误文档 \(D_{\text{neg}}\)、正确文档 \(D_{\text{pos}}\)。LLM同时看到正负样本，隐式学习目标文档的语言和风格特征
设计动机：通过对比正负文档的风格差异，让改写结果自然对齐目标文档的语言模式，而非单纯的语义同义替换
重检索验证 (Verification via Re-Retrieval)
做什么：将改写后查询重新检索，验证正确文档是否出现在top-k中
核心思路：只保留验证成功的改写对，确保每个数据点都经过实证验证
设计动机：形成闭环质量保证，使数据集中每个(原始,改写)对都具有可衡量的检索增益

ReFeed本身是数据生成框架而非模型训练方法。生成的数据集可用于： - Few-shot prompting: 检索最相关的5个改写示例作为in-context demonstration - Supervised Fine-Tuning (SFT): 直接用于训练小型改写模型

数据中心的IR视角: 将检索反馈从"训练信号"重新定位为"数据生成信号"，开辟了新的方法论方向
风格vs语义: 首次在查询改写中明确区分风格对齐和语义保真，指出现有方法的盲区
自适应改写: LLM不是简单地扩展或压缩查询，而是根据检索上下文进行差异化调整——这是数据驱动的涌现行为
闭环验证机制: 通过re-retrieval确保数据质量，避免了传统生成方法中缺乏质量保证的问题- Prompt设计的注意事项: 明确要求LLM“不要复制正确文档的具体信息”，仅基于原始查询意图改写，防止信息泄漏