FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets¶

日期: 2026-03-07
arXiv: 2603.07316
代码: 无
领域: NLP理解
关键词: financial spreadsheet, tabular QA, benchmark, LLM evaluation, numerical reasoning

一句话总结¶

提出 FinSheet-Bench，基于真实私募基金结构生成的合成金融电子表格基准——评估 10 种模型配置在复杂表格问答中的表现，最好的 Gemini 3.1 Pro 仅达 82.4%（约每 6 题错 1 题），揭示 LLM 在复杂金融表格上远未达到专业应用标准。

领域现状: LLM 已在金融文本任务（合同分析、尽调报告）中广泛应用，但从复杂 Excel 电子表格中提取结构化数据仍是短板。私募基金评估中，组合监控表、现金流报表是核心文件，但缺乏标准格式。
现有痛点: (a) 真实金融电子表格高度复杂——多工作表、跨引用、基金分隔符、多行列头、合并单元格；(b) 现有表格基准（WikiTableQA/Spider/TabFact）都用简化、规整的表格；(c) 金融场景容错率极低，97%+ 准确率才可接受，而当前 LLM 远达不到。
核心矛盾: 金融界亟需自动化电子表格提取工具，但缺乏公开的真实级复杂度基准来评估 LLM 能力——私募数据受保密协议保护无法公开。
切入角度: 从真实私募基金的结构模板出发生成合成数据——保留真实复杂度（布局、格式惯例）但替换所有数值和标识信息。
核心 idea: 在"真实结构+合成数值"的数据上系统评估 LLM 从简单查找到复杂推理的能力断层点。

8 份真实私募结构模板 → 行级数据合成（替换公司名/数值/日期） → 每份生成 3 个结构变体（A/B/C，共 24 份） → 确定性 Python 计算生成 ground truth → 16 类问题模板（4 个复杂度等级） → 10 个模型评估 → 三级级联验证（精确/模糊/LLM 裁决）。

合成数据生成协议:
- 做什么：从真实结构保留布局复杂度，同时保护数据隐私
- 核心思路：结构模板保留原始多工作表布局、列名、分隔符、格式惯例；数值用 \(A \cdot k\)（入场值）和 \(B \cdot k\)（退出值）双因子扰动（\(A, B \in [0.5, 2.0]\)，\(k \in [0.95, 1.05]\)）；公司名、人名、日期全部虚构
- 设计动机：现有金融基准（FinQA、TAT-QA）仅用上市公司公开报表，无法反映私募电子表格的真实复杂度
四级复杂度问题设计:
- 做什么：7 大类 16 种问题模板，覆盖从 Low 到 Very High 复杂度
- 核心思路：Low=单步查找（如"有几个基金？"）→ Medium=多步过滤/列表提取 → High=跨行聚合计算（求和/均值/排序） → Very High=多步统计操作（中位数/百分位数）
- 设计动机：系统性定位 LLM 在哪个复杂度等级开始断崩
三级级联验证系统:
- 做什么：自动化评估自由文本 LLM 回答的正确性
- 核心思路：Tier 1 精确匹配（严格正则+2.5%容差，解决~25%）→ Tier 2 模糊匹配（5%容差+子串+Jaccard，解决~25%）→ Tier 3 LLM 裁决（GPT-4o-mini + Gemini 3 Flash 双模型，解决~48%），分歧案例人工审核
- 设计动机：金融 QA 的答案格式多变（数字、列表、字典、日期），纯规则难以覆盖

模型	Overall Acc	最简单文件	最复杂文件(152公司/8基金)
Gemini 3.1 Pro	82.4%	86.2%	~48.6%
GPT-5.2 (reasoning)	80.4%	-	-
Claude Opus 4.6 (thinking)	80.2%	-	-
Gemini 3 Pro	80.2%	-	-
GPT-5.2 (no reasoning)	74.8%	-	-
GPT-4o	72.3%	-	-
GPT-3.5-Turbo	38.6%	-	上下文溢出