跳转至

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

日期: 2026-03-07
arXiv: 2603.07316
代码: 无
领域: NLP理解
关键词: financial spreadsheet, tabular QA, benchmark, LLM evaluation, numerical reasoning

一句话总结

提出 FinSheet-Bench,基于真实私募基金结构生成的合成金融电子表格基准——评估 10 种模型配置在复杂表格问答中的表现,最好的 Gemini 3.1 Pro 仅达 82.4%(约每 6 题错 1 题),揭示 LLM 在复杂金融表格上远未达到专业应用标准。

研究背景与动机

  1. 领域现状: LLM 已在金融文本任务(合同分析、尽调报告)中广泛应用,但从复杂 Excel 电子表格中提取结构化数据仍是短板。私募基金评估中,组合监控表、现金流报表是核心文件,但缺乏标准格式。

  2. 现有痛点: (a) 真实金融电子表格高度复杂——多工作表、跨引用、基金分隔符、多行列头、合并单元格;(b) 现有表格基准(WikiTableQA/Spider/TabFact)都用简化、规整的表格;(c) 金融场景容错率极低,97%+ 准确率才可接受,而当前 LLM 远达不到。

  3. 核心矛盾: 金融界亟需自动化电子表格提取工具,但缺乏公开的真实级复杂度基准来评估 LLM 能力——私募数据受保密协议保护无法公开。

  4. 切入角度: 从真实私募基金的结构模板出发生成合成数据——保留真实复杂度(布局、格式惯例)但替换所有数值和标识信息。

  5. 核心 idea: 在"真实结构+合成数值"的数据上系统评估 LLM 从简单查找到复杂推理的能力断层点。

方法详解

整体框架

8 份真实私募结构模板 → 行级数据合成(替换公司名/数值/日期) → 每份生成 3 个结构变体(A/B/C,共 24 份) → 确定性 Python 计算生成 ground truth → 16 类问题模板(4 个复杂度等级) → 10 个模型评估 → 三级级联验证(精确/模糊/LLM 裁决)。

关键设计

  1. 合成数据生成协议:

    • 做什么:从真实结构保留布局复杂度,同时保护数据隐私
    • 核心思路:结构模板保留原始多工作表布局、列名、分隔符、格式惯例;数值用 \(A \cdot k\)(入场值)和 \(B \cdot k\)(退出值)双因子扰动(\(A, B \in [0.5, 2.0]\)\(k \in [0.95, 1.05]\));公司名、人名、日期全部虚构
    • 设计动机:现有金融基准(FinQA、TAT-QA)仅用上市公司公开报表,无法反映私募电子表格的真实复杂度
  2. 四级复杂度问题设计:

    • 做什么:7 大类 16 种问题模板,覆盖从 Low 到 Very High 复杂度
    • 核心思路:Low=单步查找(如"有几个基金?")→ Medium=多步过滤/列表提取 → High=跨行聚合计算(求和/均值/排序) → Very High=多步统计操作(中位数/百分位数)
    • 设计动机:系统性定位 LLM 在哪个复杂度等级开始断崩
  3. 三级级联验证系统:

    • 做什么:自动化评估自由文本 LLM 回答的正确性
    • 核心思路:Tier 1 精确匹配(严格正则+2.5%容差,解决~25%)→ Tier 2 模糊匹配(5%容差+子串+Jaccard,解决~25%)→ Tier 3 LLM 裁决(GPT-4o-mini + Gemini 3 Flash 双模型,解决~48%),分歧案例人工审核
    • 设计动机:金融 QA 的答案格式多变(数字、列表、字典、日期),纯规则难以覆盖

电子表格序列化

  • 所有 Excel 文件转为 CSV 纯文本输入——丢失合并单元格、颜色、边框等视觉信息
  • 这是当前业界实际使用方式,但也引入信息损失问题

实验关键数据

主实验

模型 Overall Acc 最简单文件 最复杂文件(152公司/8基金)
Gemini 3.1 Pro 82.4% 86.2% ~48.6%
GPT-5.2 (reasoning) 80.4% - -
Claude Opus 4.6 (thinking) 80.2% - -
Gemini 3 Pro 80.2% - -
GPT-5.2 (no reasoning) 74.8% - -
GPT-4o 72.3% - -
GPT-3.5-Turbo 38.6% - 上下文溢出

按复杂度分析

复杂度 平均准确率 说明
Low(简单查找) ~85-90% 最好的模型也有错
Medium(多步过滤) ~75-80% 开始出现明显下降
High(聚合计算) ~65-75% 数值计算错误频发
Very High(复杂统计) ~50-60% 中位数等多步操作严重退化

关键发现

  • 无模型达到专业标准: 最好的 82.4% 意味着每 6 题错 1 题,远低于金融行业 97%+ 要求
  • 复杂度递增 = 准确率骤降: 从最简单文件 86.2% 到最复杂文件 48.6%(152 个公司/8 个基金),接近随机猜
  • 困难模式一致: 所有 10 个模型在同一类问题上困难,说明这是 LLM 的系统性局限而非个别模型问题
  • Reasoning 模式有帮助但有限: GPT-5.2 开启 reasoning 从 74.8% 提升到 80.4%(+5.6pt),但仍远不够
  • 序列化信息损失是重要因素: CSV 序列化丢失视觉线索(基金分隔由颜色/粗体表示),导致结构理解困难

亮点与洞察

  • 结论意义重大: 首次在接近真实复杂度的金融表格上定量证明 LLM 无法达到专业应用标准,为行业采纳提供了清醒的参考
  • 合成数据方法论: "真实结构+合成数值"的方法可推广到医疗、法律等其他受隐私保护的领域
  • 级联验证设计: 三级验证系统本身就是对金融 QA 评估的有用贡献

局限性 / 可改进方向

  • 仅测试文本序列化: 未测试 JSON/HTML/图像等其他输入格式,视觉模型可能通过保留格式线索表现更好
  • 合成数据偏差: 虽模拟真实结构,但会计恒等式可能被扰动打破,引入非真实的数据一致性问题
  • Prompt 未优化: 所有模型使用相同最小化 prompt,模型专属 prompt 可能显著提升
  • 改进方向: 论文指出最终需要"分离文档理解与确定性计算"的架构——这启发了未来将结构化解析(抽取)与推理(计算)解耦的方向

相关工作与启发

  • vs FinQA/TAT-QA: 这些用上市公司标准报表,表格规整;FinSheet-Bench 针对私募的非标准多工作表,复杂度高出一个量级
  • vs TableBench: 覆盖 18 个领域但表格结构简单;FinSheet-Bench 专注金融但结构复杂度更高
  • 启发: 将文档理解和计算分离的思路适用于所有需要精确数值推理的领域

评分

  • 新颖性: ⭐⭐⭐⭐ 首个基于真实私募结构的金融表格基准,填补了重要空白
  • 实验充分度: ⭐⭐⭐⭐ 10 个模型、24 个文件、三级验证,设计严谨
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法论详尽、数据合成流程透明
  • 价值: ⭐⭐⭐⭐ 对金融 AI 行业有很强的实际指导意义