ARK: Answer-Centric Retriever Tuning via KG-augmented Curriculum Learning¶

会议: ACL 2026
arXiv: 2511.16326
代码: GitHub
领域: RAG / Retriever Fine-tuning
关键词: 答案中心检索, 知识图谱增强, 课程学习, 对比学习, 长上下文RAG

一句话总结¶

提出ARK框架，通过三维答案充分性评分（Forward+Backward+Retriever对齐）筛选正样本，利用LLM构建的知识图谱生成渐进难度的困难负样本进行课程对比学习，在10个数据集上平均提升14.5% F1。

领域现状：RAG通过连接LLM与外部知识源增强生成质量，但长上下文场景下检索器常无法区分稀疏但关键的证据。标准检索器优化查询-文档相似度，未对齐下游答案生成的目标。

现有痛点：(1) 检索到的文档可能话题相关但不足以生成正确答案——"相关但不充分"；(2) KG-integrated RAG（如GraphRAG）虽有效但索引成本极高（需大量LLM调用），且社区聚类噪声多；(3) 缺乏针对"答案充分性"优化的检索器训练方法。

核心矛盾：检索器的训练目标（查询-文档相似度）与RAG的最终目标（生成正确答案）之间存在gap。

本文目标：训练一个真正"答案中心"的检索器——优化的目标是检索到的内容是否足以生成正确答案。

切入角度：重新定义KG在RAG中的角色——不作为直接检索源，而是作为课程学习中困难负样本的生成器。

核心 idea：用KG子图生成的增强查询来挖掘渐进难度的困难负样本，通过课程对比学习教会检索器区分"充分"和"看似相关但不充分"的证据。

两阶段架构：(A) 查询构建——从文档构建KG，提取子图，生成增强查询用于挖掘困难负样本；(B) 对比微调——用答案充分性评分选正样本，用增强查询挖的困难负样本做课程对比学习。

三维答案充分性评分:
- 功能：精确识别真正"足以生成正确答案"的正样本chunk
- 核心思路：Forward对齐 \(S_f\) = chunk是否足以生成答案（答案的条件概率）；Backward对齐 \(S_b\) = 从答案+chunk能否反推问题；Parameter对齐 \(S_v\) = 原始检索器的余弦相似度（防遗忘）。加权组合选top-M为正样本
- 设计动机：仅用查询-文档相似度选正样本会引入"相关但不充分"的噪声，三维评分确保正样本是真正有用的
KG驱动的困难负样本挖掘:
- 功能：生成渐进难度的困难负样本进行课程学习
- 核心思路：从文档构建LLM-derived KG，用PPR (Personalized PageRank)提取答案相关子图，基于子图生成增强查询。大子图(\(Q_L^{aug}\))生成较易负样本，小子图(\(Q_S^{aug}\))生成更难负样本——因为更聚焦的子图生成的查询更接近正确答案的"语义邻域"
- 设计动机：KG的社区结构自然暴露了"近但不对"的概念——正是最具挑战性的困难负样本
课程对比学习:
- 功能：从易到难逐步提升检索器的辨别力
- 核心思路：三阶段课程——(i) in-batch随机负样本；(ii) \(Q_L^{aug}\)挖掘的困难负样本 \(\mathcal{T}_{hard_L}^-\)；(iii) \(Q_S^{aug}\)挖掘的更难负样本 \(\mathcal{T}_{hard_S}^-\)
- 设计动机：直接用最难的负样本训练会导致梯度不稳定，课程学习确保渐进适应

标准InfoNCE对比损失，正样本由三维充分性评分选择，负样本随课程阶段递增难度。检索器可无缝集成到现有RAG管道中。

指标	值	说明
平均F1提升	+14.5%	10个数据集平均
SOTA	8/10数据集	Ultradomain + LongBench