跳转至

N2N-GQA: Noise-to-Narrative for Graph-Based Table-Text Question Answering Using LLMs

会议: AAAI 2026
arXiv: 2601.06603
代码: 无
领域: LLM推理 / RAG
关键词: 多跳问答, 图结构检索, 表格-文本混合QA, 零样本, GraphRank

一句话总结

提出 N2N-GQA——首个用于开放域混合表格-文本问答的零样本框架,核心思路是将检索到的嘈杂文档构建为动态证据图(文档为节点、TF-IDF共享词为边),通过图中心性剪枝识别"桥接文档"连接多跳推理链,在 OTT-QA 上比 Vanilla RAG 提升 +39.6 EM(从 8.0 到 48.8),零样本即接近微调系统 CORE (49.0 EM)。

研究背景与动机

  1. 领域现状:多跳问答(如"2019年大西洋冰球年度最佳球员出生国的首都是什么?")需要跨多个文档/表格检索并推理。标准 RAG 管道将检索结果作为扁平排序列表传给 LLM。开放域混合 QA(如 OTT-QA)要求从大型语料库中同时检索表格和文本段落。

  2. 现有痛点

  3. 列表式检索将每个文档独立评分,无法发现文档间的推理链关系——一个文档单独看不相关,但它是连接两个高相关文档的"桥梁"
  4. 检索噪声在多跳问题中被放大——第一跳的错误传播到整个推理链
  5. 现有有竞争力的开放域方法(CORE、COS)都需要大量特定任务微调
  6. 零样本方法(如 ODYSSEY)仅在封闭域(给定金标准证据)下评估

  7. 核心矛盾:多跳推理需要理解证据片段之间的关系(哪些文档形成推理链),而排序列表将每个文档孤立评估——关系信息在检索阶段就被丢弃了。

  8. 本文要解决什么? 在不做任何任务特定训练的前提下,通过图结构组织检索结果来恢复文档间的关系,实现零样本开放域多跳 QA。

  9. 切入角度:将检索文档建模为图的节点,用 TF-IDF 共享词权重作为边,利用图中心性识别结构上重要的桥接文档。

  10. 核心 idea 一句话:把 RAG 的扁平检索列表转化为结构化证据图,用图中心性剪枝过滤噪声、保留推理链。

方法详解

整体框架

N2N-GQA 管道:(1) LLM 结构化查询规划——将复杂问题分解为多跳子查询及条件模板;(2) 逐跳迭代检索——ColBERTv2 检索 → 构建临时证据图 → GraphRank 剪枝 → LLM 提取中间实体 → 实体填入下一跳模板;(3) 全局证据聚合——跨所有跳的证据汇集 → 桥接感知混合选择器 → 最终证据图 → GraphRank 剪枝 → LLM 综合最终答案。

关键设计

  1. 动态证据图构建:
  2. 做什么:将检索到的文档组织为查询特定的知识图
  3. 核心思路:每个检索文档(段落或序列化表格行)作为节点,边权重为共享词的 TF-IDF 分数之和。边代表文档间的语义重叠——共享重要实体的文档更可能是推理链的相邻环节
  4. 设计动机:选择 TF-IDF 而非稠密嵌入——TF-IDF 要求显式词汇重叠,减少"语义漂移"(概念相似但事实不同),无需训练、计算快、可解释

  5. GraphRank 评分:

  6. 做什么:结合语义相关性和结构重要性对文档重排序
  7. 核心思路:\(\text{Score}_{GR}(v) = S_{sem}(v) \times (1 + (1-\alpha) \times S_{struct}(v))\)\(\alpha = 0.85\)。乘法结构确保语义主导——语义不相关但图中心性高的噪声节点被抑制,图结构信息只对语义相关的文档起"置信度放大"作用
  8. 设计动机:加法组合中高中心性噪声可能压过低语义分的真正相关文档;乘法天然解决此问题

  9. 桥接感知混合选择器:

  10. 做什么:在最终证据聚合阶段识别和优先处理连接表格和文本的桥接文档
  11. 核心思路:检查最高分段落和最高分表格之间是否存在实体链接 \(\phi(p,t) = \mathbb{1}[E(t) \cap T(p) \neq \emptyset]\)。链接成功则仅提升表格分数;否则同时提升两者分数
  12. 设计动机:混合 QA 的推理链通常需要表格→文本或文本→表格的跨类型推理,桥接文档是必不可少的"中间人"

  13. 结构化查询规划:

  14. 做什么:LLM 将复杂问题分解为可执行的多跳计划
  15. 核心思路:输出结构化 JSON——问题复杂度分类(1/2/3 跳)、初始查询及期望实体类型、后续跳的条件模板(用占位符)、查询替代方案
  16. 设计动机:可预测的、机器可读的输出让管道的每一步都有明确的执行路径

损失函数 / 训练策略

  • 完全零样本——无训练/微调
  • 读者模型:GPT-4o、GPT-4.1、Llama3-70B
  • 检索:预索引的 ColBERTv2,最终 top-100 检索,图剪枝到 12-25 节点

实验关键数据

主实验

OTT-QA(开放域,500 样本),零样本:

方法 Reader EM↑ F1↑ BERTScore-F1↑
Vanilla RAG GPT-4o 8.00 16.09 8.85
RAG + 查询分解 GPT-4o 31.40 43.07 37.84
N2N-GQA w/o GraphRank GPT-4.1 48.50 56.90 58.22
N2N-GQA w/ GraphRank GPT-4.1 48.80 57.26 58.76
N2N-GQA w/ GraphRank Llama3-70B 40.80 48.08 49.38

对比微调系统(非零样本):CORE 49.0 EM,COS 56.9 EM。

消融实验

组件 EM 提升 说明
+ 查询分解 +23.4 8.0→31.4,最大单组件贡献
+ 图构建与剪枝 +16.0 31.4→47.4,证据图是核心
+ GraphRank +0.2-0.3 47.4→47.6,温和但一致
整体 N2N-GQA +39.6 8.0→47.6(GPT-4o)

关键发现

  • 图结构组织是关键突破:仅图构建+剪枝就带来 +16 EM,远超 GraphRank 的 +0.3——"将文档组织为图"本身比"如何排序节点"更重要
  • 查询分解是第二大贡献:+23.4 EM,多跳问题的显式分解对零样本系统至关重要
  • 零样本接近微调:48.8 EM vs CORE 49.0 EM,差距不到 1 个点
  • 更强读者获益更多:GPT-4.1 > GPT-4o > Llama3-70B

亮点与洞察

  • "列表→图"的范式转换是核心贡献——简单地"把检索结果组织成图然后剪枝"就能带来 +16 EM,说明 RAG 管道丢弃了太多关系信息
  • TF-IDF 边权重的刻意简单性:零样本框架中"对的结构 > 花哨的边权计算"
  • 乘法 GraphRank 确保语义主导,避免结构分数引入噪声——一个被低估但重要的细节

局限性 / 可改进方向

  • 仅在 500 样本上评估(受限于 LLM 调用成本)
  • TF-IDF 对语义同义但词汇不同的桥接关系可能遗漏
  • 与 COS (56.9 EM) 仍有 ~8 分差距
  • 表格序列化可能丢失结构信息(列类型、跨行关系)

相关工作与启发

  • vs CORE:微调 DPR + 实体链接。N2N-GQA 零样本达同等水平(48.8 vs 49.0)
  • vs COS:Wikipedia 规模预训练。N2N-GQA 差 ~8 分但完全零样本
  • vs ODYSSEY:零样本但封闭域。N2N-GQA 解决更难的开放域设置
  • 图结构证据组织可推广到任何多跳 RAG 场景

评分

  • 新颖性: ⭐⭐⭐⭐ "列表→图"范式简单但有效,首个零样本开放域混合 QA 框架
  • 实验充分度: ⭐⭐⭐⭐ 两数据集、三读者、渐进消融清晰
  • 写作质量: ⭐⭐⭐⭐ 问题定义精确,消融设计好
  • 价值: ⭐⭐⭐⭐ 证明了图结构对 RAG 的重要性,零样本部署有直接实用价值