FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets¶
日期: 2026-03-07
arXiv: 2603.07316
代码: 无
领域: NLP理解
关键词: financial spreadsheet, tabular QA, benchmark, LLM evaluation, numerical reasoning
一句话总结¶
提出 FinSheet-Bench,基于真实私募基金结构生成的合成金融电子表格基准——评估 10 种模型配置在复杂表格问答中的表现,最好的 Gemini 3.1 Pro 仅达 82.4%(约每 6 题错 1 题),揭示 LLM 在复杂金融表格上远未达到专业应用标准。
研究背景与动机¶
-
领域现状: LLM 已在金融文本任务(合同分析、尽调报告)中广泛应用,但从复杂 Excel 电子表格中提取结构化数据仍是短板。私募基金评估中,组合监控表、现金流报表是核心文件,但缺乏标准格式。
-
现有痛点: (a) 真实金融电子表格高度复杂——多工作表、跨引用、基金分隔符、多行列头、合并单元格;(b) 现有表格基准(WikiTableQA/Spider/TabFact)都用简化、规整的表格;(c) 金融场景容错率极低,97%+ 准确率才可接受,而当前 LLM 远达不到。
-
核心矛盾: 金融界亟需自动化电子表格提取工具,但缺乏公开的真实级复杂度基准来评估 LLM 能力——私募数据受保密协议保护无法公开。
-
切入角度: 从真实私募基金的结构模板出发生成合成数据——保留真实复杂度(布局、格式惯例)但替换所有数值和标识信息。
-
核心 idea: 在"真实结构+合成数值"的数据上系统评估 LLM 从简单查找到复杂推理的能力断层点。
方法详解¶
整体框架¶
8 份真实私募结构模板 → 行级数据合成(替换公司名/数值/日期) → 每份生成 3 个结构变体(A/B/C,共 24 份) → 确定性 Python 计算生成 ground truth → 16 类问题模板(4 个复杂度等级) → 10 个模型评估 → 三级级联验证(精确/模糊/LLM 裁决)。
关键设计¶
-
合成数据生成协议:
- 做什么:从真实结构保留布局复杂度,同时保护数据隐私
- 核心思路:结构模板保留原始多工作表布局、列名、分隔符、格式惯例;数值用 \(A \cdot k\)(入场值)和 \(B \cdot k\)(退出值)双因子扰动(\(A, B \in [0.5, 2.0]\),\(k \in [0.95, 1.05]\));公司名、人名、日期全部虚构
- 设计动机:现有金融基准(FinQA、TAT-QA)仅用上市公司公开报表,无法反映私募电子表格的真实复杂度
-
四级复杂度问题设计:
- 做什么:7 大类 16 种问题模板,覆盖从 Low 到 Very High 复杂度
- 核心思路:Low=单步查找(如"有几个基金?")→ Medium=多步过滤/列表提取 → High=跨行聚合计算(求和/均值/排序) → Very High=多步统计操作(中位数/百分位数)
- 设计动机:系统性定位 LLM 在哪个复杂度等级开始断崩
-
三级级联验证系统:
- 做什么:自动化评估自由文本 LLM 回答的正确性
- 核心思路:Tier 1 精确匹配(严格正则+2.5%容差,解决~25%)→ Tier 2 模糊匹配(5%容差+子串+Jaccard,解决~25%)→ Tier 3 LLM 裁决(GPT-4o-mini + Gemini 3 Flash 双模型,解决~48%),分歧案例人工审核
- 设计动机:金融 QA 的答案格式多变(数字、列表、字典、日期),纯规则难以覆盖
电子表格序列化¶
- 所有 Excel 文件转为 CSV 纯文本输入——丢失合并单元格、颜色、边框等视觉信息
- 这是当前业界实际使用方式,但也引入信息损失问题
实验关键数据¶
主实验¶
| 模型 | Overall Acc | 最简单文件 | 最复杂文件(152公司/8基金) |
|---|---|---|---|
| Gemini 3.1 Pro | 82.4% | 86.2% | ~48.6% |
| GPT-5.2 (reasoning) | 80.4% | - | - |
| Claude Opus 4.6 (thinking) | 80.2% | - | - |
| Gemini 3 Pro | 80.2% | - | - |
| GPT-5.2 (no reasoning) | 74.8% | - | - |
| GPT-4o | 72.3% | - | - |
| GPT-3.5-Turbo | 38.6% | - | 上下文溢出 |
按复杂度分析¶
| 复杂度 | 平均准确率 | 说明 |
|---|---|---|
| Low(简单查找) | ~85-90% | 最好的模型也有错 |
| Medium(多步过滤) | ~75-80% | 开始出现明显下降 |
| High(聚合计算) | ~65-75% | 数值计算错误频发 |
| Very High(复杂统计) | ~50-60% | 中位数等多步操作严重退化 |
关键发现¶
- 无模型达到专业标准: 最好的 82.4% 意味着每 6 题错 1 题,远低于金融行业 97%+ 要求
- 复杂度递增 = 准确率骤降: 从最简单文件 86.2% 到最复杂文件 48.6%(152 个公司/8 个基金),接近随机猜
- 困难模式一致: 所有 10 个模型在同一类问题上困难,说明这是 LLM 的系统性局限而非个别模型问题
- Reasoning 模式有帮助但有限: GPT-5.2 开启 reasoning 从 74.8% 提升到 80.4%(+5.6pt),但仍远不够
- 序列化信息损失是重要因素: CSV 序列化丢失视觉线索(基金分隔由颜色/粗体表示),导致结构理解困难
亮点与洞察¶
- 结论意义重大: 首次在接近真实复杂度的金融表格上定量证明 LLM 无法达到专业应用标准,为行业采纳提供了清醒的参考
- 合成数据方法论: "真实结构+合成数值"的方法可推广到医疗、法律等其他受隐私保护的领域
- 级联验证设计: 三级验证系统本身就是对金融 QA 评估的有用贡献
局限性 / 可改进方向¶
- 仅测试文本序列化: 未测试 JSON/HTML/图像等其他输入格式,视觉模型可能通过保留格式线索表现更好
- 合成数据偏差: 虽模拟真实结构,但会计恒等式可能被扰动打破,引入非真实的数据一致性问题
- Prompt 未优化: 所有模型使用相同最小化 prompt,模型专属 prompt 可能显著提升
- 改进方向: 论文指出最终需要"分离文档理解与确定性计算"的架构——这启发了未来将结构化解析(抽取)与推理(计算)解耦的方向
相关工作与启发¶
- vs FinQA/TAT-QA: 这些用上市公司标准报表,表格规整;FinSheet-Bench 针对私募的非标准多工作表,复杂度高出一个量级
- vs TableBench: 覆盖 18 个领域但表格结构简单;FinSheet-Bench 专注金融但结构复杂度更高
- 启发: 将文档理解和计算分离的思路适用于所有需要精确数值推理的领域
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个基于真实私募结构的金融表格基准,填补了重要空白
- 实验充分度: ⭐⭐⭐⭐ 10 个模型、24 个文件、三级验证,设计严谨
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法论详尽、数据合成流程透明
- 价值: ⭐⭐⭐⭐ 对金融 AI 行业有很强的实际指导意义