跳转至

Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows

会议: ACL 2026
arXiv: 2512.13168
代码: HuggingFace
领域: Agent基准 / 企业AI
关键词: 金融会计, 电子表格, 企业工作流, Agent评估, 长时序任务

一句话总结

本文提出 Finch(FinWorkBench),一个从真实企业环境(Enron 数据集等)构建的金融会计工作流基准,包含 172 个复合工作流和 1,710 个电子表格(2700 万单元格),即使最强的 GPT 5.1 Pro 花费平均 16.8 分钟也仅通过 38.4% 的工作流,揭示了前沿 AI Agent 在真实企业场景中的严重不足。

研究背景与动机

领域现状:前沿 AI 系统(Claude、ChatGPT、Gemini、Copilot)正日益嵌入企业日常工作流。金融会计(F&A)是高风险、知识密集型领域,对每个组织都至关重要。AI 辅助工具在文档起草、数据探索、电子表格操作等方面影响日增。

现有痛点:(1) 真实 F&A 工作本质上是混乱的——工件跨异构电子表格、PDF 和其他文档互联,经历多版本协作编辑;(2) 电子表格包含复杂结构——跨表引用、不规则布局、合并单元格、隐式公式链、图表等;(3) 工作流是长时序的——需要多步推理,涵盖数据录入、编辑、检索、计算、建模、验证、报告生成等;(4) 现有基准通常使用干净的单表输入,无法反映真实复杂度。

核心矛盾:当今前沿 AI Agent 能否真正处理专业人员日常面对的混乱、长时序、知识密集的工作流?

本文目标:构建首个真正企业级的 F&A 工作流基准,从真实企业环境源头获取,保持原始的多模态复杂性。

切入角度:从 Enron 邮件语料库的协作线程和电子表格版本历史中挖掘真实工作流——"存在先于本质"。

核心 idea:工作流应从真实企业环境中观察后再形式化定义,而非人工设计。通过邮件线程提取、版本差异分析和专家标注三条路径构建基准。

方法详解

整体框架

Finch 数据集通过三条构建路径获取:(1) 从企业邮件线程中挖掘工作流——邮件中自然描述了业务目标和附件文件;(2) 从版本化电子表格的差异中推导工作流——分析连续版本变化以推断底层目标;(3) 从最终交付文件和报告设计工作流——基于高质量文件由专家编写工作流指令。全部经过 700+ 小时的专家标注和多轮质控。

关键设计

  1. 从邮件线程挖掘工作流:

    • 功能:捕捉真实协作中的工作流意图和上下文
    • 核心思路:从 Enron 邮件语料库(15,000 文件 + 500,000 邮件)中,用 GPT-5 识别满足两个条件的协作消息——(a) 显式陈述业务目标,(b) 引用一个或多个附件电子表格。强接地案例中输入和参考工件都在附件中;弱接地案例中仅部分工件可用,需专家补充
    • 设计动机:邮件线程包含了工作流的"自然文档"——协作者在日常沟通中自然描述、讨论和追踪工作
  2. 从版本差异推导工作流:

    • 功能:发现隐含在电子表格修改历史中的工作流
    • 核心思路:收集版本化工作簿族,用 LLM 差异化程序识别连续版本,推断工作流类型(如"日期版本控制、假设更新、错误修正")和详细变更描述。人类专家验证并精炼——确认差异构成有意义的工作流而非偶然变动
    • 设计动机:许多工作流不在邮件中显式描述,但通过版本历史可以"考古"——这是独特的数据源
  3. 多维度评估框架:

    • 功能:支持复杂电子表格工件的可靠评估
    • 核心思路:(a) 人类评估——专家逐工作流比较输入/参考/模型输出,二元通过/失败;(b) LLM-as-Judge——支持修改(结构化 diff + 紧凑快照 + 截图)、生成(全量值/公式提取 + 截图)和 QA 三类任务的自动评估。评估关注完整性、数值/逻辑正确性、过度编辑规避和格式可读性
    • 设计动机:电子表格评估不能简单逐单元格对比——可能存在等价公式、替代布局等多种合理方案

损失函数 / 训练策略

Finch 为评估基准。评估的产品端 Agent:ChatGPT(GPT 5.1 Pro)、Claude(Sonnet/Opus 4.5 思考模式)。API 端模型:GPT 5.1、Claude Sonnet/Opus 4.5、Gemini 3 Pro、Grok 4、Qwen 3 Max。使用 SpreadsheetBench 作为基线代码生成框架。

实验关键数据

主实验

模型/Agent 工作流通过率
GPT 5.1 Pro(人类评估) 38.4%
Claude Opus 4.5 第二强但 <50%
Gemini 3 Pro 显著低于 GPT 5.1
GPT 5.1 Pro ≤2 tasks 44.3%
GPT 5.1 Pro >2 tasks 23.5%
GPT 5.1 Pro(含 PDF/图像) 35.0%

消融实验

复杂度维度 影响
任务组合性 ≤2 task 44.3% → >2 task 23.5%,误差累积严重
多模态工件 含 PDF/图像时下降到 35.0%
电子表格复杂度 中位数 15K 单元格,最大 370 万单元格
工具调用次数 中位数 16 次,范围 6-107 次
长时序依赖 跨表引用和隐式公式链导致频繁失败

关键发现

  • 即使最强 Agent(GPT 5.1 Pro)在 700+ 小时专家标注的基准上也仅通过 38.4%
  • 复合性是关键瓶颈——多任务工作流的通过率比单任务低近一半
  • 混乱的电子表格结构(合并单元格、嵌套表头、不规则布局)频繁导致数据检索错误
  • Agent 难以重建电子表格公式中编码的隐式业务逻辑
  • LLM-as-Judge 与人类评估高度一致,提供了可扩展的评估方案

亮点与洞察

  • "存在先于本质"的数据集构建哲学很有说服力——从真实企业邮件和版本历史中挖掘工作流,比人工设计更真实
  • 92.4% 的工作流涉及多个电子表格、平均 8 个 sheet 的规模远超现有基准——这才是真实企业场景
  • 38.4% 的通过率对行业是个清醒的提醒——AI 在企业 F&A 工作中还远未到"自动化"的程度
  • 700+ 小时的标注投入和多轮质控保证了基准的高质量

局限与展望

  • 以英语为主,未覆盖多语言企业场景
  • Enron 数据虽然真实但年代较久(2000 年代),部分业务实践可能已过时
  • 工作流评估的二元通过/失败可能对部分完成的高质量工作不公平
  • 未覆盖实时协作和多 Agent 场景

相关工作与启发

  • vs SpreadsheetBench: 后者设计为较小较干净的电子表格任务,Finch 扩展到大型混乱企业级工件
  • vs DABStep: 后者聚焦数据分析步骤,Finch 覆盖端到端复合工作流
  • vs WideSearch: 后者聚焦网络搜索任务,Finch 将其整合为更大工作流的组成部分

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个真实企业级 F&A 工作流基准,从邮件/版本历史挖掘工作流的方法论新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 多个前沿模型/Agent、人类+自动评估、详细的复杂度分析
  • 写作质量: ⭐⭐⭐⭐⭐ 数据集构建过程透明详尽,统计分析全面
  • 价值: ⭐⭐⭐⭐⭐ 为企业 AI Agent 评估提供了急需的高质量真实基准

相关论文