Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding¶

日期: 2026-03-06
arXiv: 2603.06503
代码: 无
领域: 多模态/VLM
关键词: spreadsheet understanding, agentic RAG, tool-calling, multimodal retrieval, enterprise QA

一句话总结¶

提出 BRTR，一个多模态 agentic RAG 框架，用迭代工具调用循环替代单次检索，结合 planner-executor 架构，在企业级电子表格理解任务上比单次检索方法提升 25 个百分点（FRTR-Bench 达 99% 准确率）。

研究背景与动机¶

领域现状：企业级电子表格包含数百万单元格、跨 sheet 依赖和嵌入的可视化。现有方法分两类：压缩方法（SpreadsheetLLM）将 worksheet 压缩到 LLM 上下文窗口内；检索方法（FRTR）对内容分块做语义检索。两者都是单次检索。
现有痛点：(a) 单次检索可能遗漏关键上下文——真实分析师会跨 sheet 交叉引用、跟踪单元格依赖、逐步收集证据；(b) 压缩方法丢失数据精度；(c) 全量注入超出上下文窗口。
核心矛盾：电子表格分析是一个天然需要多步推理的过程（先查列名→找到数据→跨表对比→计算），但现有系统只能"一锤子买卖"式检索。
切入角度：参照 ReAct 范式，让 LLM 像真实分析师一样迭代查询、检查结果、精炼搜索。
核心 idea：用 agentic tool-calling loop 替代单次检索，配合 planner-executor 架构处理复杂多步企业工作流。

方法详解¶

整体框架¶

电子表格 → 多模态索引（行/列/窗口/图像 chunk + NVIDIA NeMo 1B 嵌入）→ 混合检索（dense + BM25 + RRF 融合）→ Agentic Loop（LLM 调用 5 种搜索工具，最多 50 轮迭代）→ Planner 分解为 DAG 子任务 → 6 种 Executor（Excel/IO/Web/Validation/OCR/Search）并行执行 → 综合输出。

关键设计¶

多模态索引与混合检索:
- 做什么：将电子表格分为行/列/矩形窗口/嵌入图像四种 chunk，混合语义+词汇检索
- 核心思路：RRF 融合 \(\text{score}(c,q) = \sum_{r} \frac{1}{k + \text{rank}_r(c,q)}\)，\(k=60\)，top-10 chunks 作为初始上下文
- 设计动机：电子表格中精确数值和单元格引用需要词汇匹配（BM25），而语义查询需要 dense retrieval，两者互补
Agentic 迭代工具调用:
- 做什么：LLM 通过 5 种搜索工具（search_rows/columns/windows/images/all）迭代获取证据
- 核心思路：初始检索后 LLM 判断证据是否充分→不充分则精炼查询/换检索类型/加坐标过滤→最多 50 轮迭代（实际平均 3-6 轮）
- 设计动机：模拟真实分析师的工作流——先看总表，发现需要看明细，再查特定行列。上下文管理用 always-prune 策略避免 token 溢出
Planner-Executor 架构:
- 做什么：将复杂工作流分解为依赖图，并行调度独立子任务
- 核心思路：Planner 生成子任务 DAG → 独立分支并发执行 → 完成结果注入下游依赖 → 最终综合
- 设计动机：长 horizon 的组合任务（计算+格式化+可视化+跨文件验证）在单线程 agent 中会累积误差

嵌入模型评估¶

系统比较了 5 种多模态嵌入模型，NVIDIA NeMo Retriever 1B 在 Recall@10 (0.60) 和 nDCG@10 (0.42) 均最优。

实验关键数据¶

主实验（FRTR-Bench, 159 queries）¶

模型	BRTR	FRTR (单次)	SpreadsheetLLM	提升
GPT-5	0.99	0.73	0.18	+26pp
Gemini 3 Pro	0.99	0.68	0.29	+31pp
Claude Opus 4.6	0.98	0.74	0.34	+24pp
GPT-5.2	0.98	0.72	0.32	+26pp

消融实验¶

配置	关键指标	说明
BRTR 完整	99%	迭代检索+规划
无 Planner	-	复杂多步任务退化
无迭代（单次检索）	73%	FRTR baseline
无搜索工具	-	仅靠上下文

关键发现¶

BRTR 在 FRTR-Bench 上达到 99%，超过单次检索 25pp，超过 SpreadsheetLLM 81pp
平均只需 3-6 次工具调用即可收敛，远低于 50 次上限
GPT-5.2 在效率-准确率 trade-off 上最优（20K tokens, 91s, 98% accuracy）
Claude Opus 4.6 token 消耗最高（462K），说明模型检索策略差异巨大
FINCH benchmark 上超过已有方法 32pp

亮点与洞察¶

迭代检索的收益远超预期：从 73% 到 99%，证明"多次查找"对电子表格理解是变革性的（类比人类分析师不可能一次扫完百万单元格）
always-prune 的上下文管理策略：丢弃旧图像但保留文字描述——简单有效地控制 token 增长，保留推理记忆
NVIDIA NeMo 1B 在混合表格+视觉数据上优于其他嵌入模型：对实际 RAG 系统选型有直接参考价值

局限性 / 可改进方向¶

强依赖 frontier LLM 的 function-calling 能力，小模型（GPT-4o: 67%）效果大幅下降
只评估了英文电子表格，多语言/多格式泛化未验证
迭代检索增加延迟（GPT-5: 166s/query），对实时场景不友好
200+ 小时人工评估成本高昂，可复现性受限

评分¶

新颖性: ⭐⭐⭐⭐ agentic RAG 思路不新但在电子表格领域是首次系统实践
实验充分度: ⭐⭐⭐⭐⭐ 3 个 benchmark + 9 个 LLM + 5 个嵌入模型 + 200h 人工评估
写作质量: ⭐⭐⭐⭐ 结构清晰，系统全面
价值: ⭐⭐⭐⭐⭐ 对企业级文档 QA 系统有直接工程参考价值