Finch: Benchmarking Finance & Accounting across Spreadsheet-Centric Enterprise Workflows¶

会议: ACL 2026
arXiv: 2512.13168
代码: HuggingFace
领域: Agent基准 / 企业AI
关键词: 金融会计, 电子表格, 企业工作流, Agent评估, 长时序任务

一句话总结¶

本文提出 Finch（FinWorkBench），一个从真实企业环境（Enron 数据集等）构建的金融会计工作流基准，包含 172 个复合工作流和 1,710 个电子表格（2700 万单元格），即使最强的 GPT 5.1 Pro 花费平均 16.8 分钟也仅通过 38.4% 的工作流，揭示了前沿 AI Agent 在真实企业场景中的严重不足。

研究背景与动机¶

领域现状：前沿 AI 系统（Claude、ChatGPT、Gemini、Copilot）正日益嵌入企业日常工作流。金融会计（F&A）是高风险、知识密集型领域，对每个组织都至关重要。AI 辅助工具在文档起草、数据探索、电子表格操作等方面影响日增。

现有痛点：(1) 真实 F&A 工作本质上是混乱的——工件跨异构电子表格、PDF 和其他文档互联，经历多版本协作编辑；(2) 电子表格包含复杂结构——跨表引用、不规则布局、合并单元格、隐式公式链、图表等；(3) 工作流是长时序的——需要多步推理，涵盖数据录入、编辑、检索、计算、建模、验证、报告生成等；(4) 现有基准通常使用干净的单表输入，无法反映真实复杂度。

核心矛盾：当今前沿 AI Agent 能否真正处理专业人员日常面对的混乱、长时序、知识密集的工作流？

本文目标：构建首个真正企业级的 F&A 工作流基准，从真实企业环境源头获取，保持原始的多模态复杂性。

切入角度：从 Enron 邮件语料库的协作线程和电子表格版本历史中挖掘真实工作流——"存在先于本质"。

核心 idea：工作流应从真实企业环境中观察后再形式化定义，而非人工设计。通过邮件线程提取、版本差异分析和专家标注三条路径构建基准。

方法详解¶

整体框架¶

Finch 数据集通过三条构建路径获取：(1) 从企业邮件线程中挖掘工作流——邮件中自然描述了业务目标和附件文件；(2) 从版本化电子表格的差异中推导工作流——分析连续版本变化以推断底层目标；(3) 从最终交付文件和报告设计工作流——基于高质量文件由专家编写工作流指令。全部经过 700+ 小时的专家标注和多轮质控。

关键设计¶

从邮件线程挖掘工作流:
- 功能：捕捉真实协作中的工作流意图和上下文
- 核心思路：从 Enron 邮件语料库（15,000 文件 + 500,000 邮件）中，用 GPT-5 识别满足两个条件的协作消息——(a) 显式陈述业务目标，(b) 引用一个或多个附件电子表格。强接地案例中输入和参考工件都在附件中；弱接地案例中仅部分工件可用，需专家补充
- 设计动机：邮件线程包含了工作流的"自然文档"——协作者在日常沟通中自然描述、讨论和追踪工作
从版本差异推导工作流:
- 功能：发现隐含在电子表格修改历史中的工作流
- 核心思路：收集版本化工作簿族，用 LLM 差异化程序识别连续版本，推断工作流类型（如"日期版本控制、假设更新、错误修正"）和详细变更描述。人类专家验证并精炼——确认差异构成有意义的工作流而非偶然变动
- 设计动机：许多工作流不在邮件中显式描述，但通过版本历史可以"考古"——这是独特的数据源
多维度评估框架:
- 功能：支持复杂电子表格工件的可靠评估
- 核心思路：(a) 人类评估——专家逐工作流比较输入/参考/模型输出，二元通过/失败；(b) LLM-as-Judge——支持修改（结构化 diff + 紧凑快照 + 截图）、生成（全量值/公式提取 + 截图）和 QA 三类任务的自动评估。评估关注完整性、数值/逻辑正确性、过度编辑规避和格式可读性
- 设计动机：电子表格评估不能简单逐单元格对比——可能存在等价公式、替代布局等多种合理方案

损失函数 / 训练策略¶

Finch 为评估基准。评估的产品端 Agent：ChatGPT（GPT 5.1 Pro）、Claude（Sonnet/Opus 4.5 思考模式）。API 端模型：GPT 5.1、Claude Sonnet/Opus 4.5、Gemini 3 Pro、Grok 4、Qwen 3 Max。使用 SpreadsheetBench 作为基线代码生成框架。

实验关键数据¶

主实验¶

模型/Agent	工作流通过率
GPT 5.1 Pro（人类评估）	38.4%
Claude Opus 4.5	第二强但 <50%
Gemini 3 Pro	显著低于 GPT 5.1
GPT 5.1 Pro ≤2 tasks	44.3%
GPT 5.1 Pro >2 tasks	23.5%
GPT 5.1 Pro（含 PDF/图像）	35.0%

消融实验¶

复杂度维度	影响
任务组合性	≤2 task 44.3% → >2 task 23.5%，误差累积严重
多模态工件	含 PDF/图像时下降到 35.0%
电子表格复杂度	中位数 15K 单元格，最大 370 万单元格
工具调用次数	中位数 16 次，范围 6-107 次
长时序依赖	跨表引用和隐式公式链导致频繁失败

关键发现¶

即使最强 Agent（GPT 5.1 Pro）在 700+ 小时专家标注的基准上也仅通过 38.4%
复合性是关键瓶颈——多任务工作流的通过率比单任务低近一半
混乱的电子表格结构（合并单元格、嵌套表头、不规则布局）频繁导致数据检索错误
Agent 难以重建电子表格公式中编码的隐式业务逻辑
LLM-as-Judge 与人类评估高度一致，提供了可扩展的评估方案

亮点与洞察¶

"存在先于本质"的数据集构建哲学很有说服力——从真实企业邮件和版本历史中挖掘工作流，比人工设计更真实
92.4% 的工作流涉及多个电子表格、平均 8 个 sheet 的规模远超现有基准——这才是真实企业场景
38.4% 的通过率对行业是个清醒的提醒——AI 在企业 F&A 工作中还远未到"自动化"的程度
700+ 小时的标注投入和多轮质控保证了基准的高质量

局限与展望¶

以英语为主，未覆盖多语言企业场景
Enron 数据虽然真实但年代较久（2000 年代），部分业务实践可能已过时
工作流评估的二元通过/失败可能对部分完成的高质量工作不公平
未覆盖实时协作和多 Agent 场景

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个真实企业级 F&A 工作流基准，从邮件/版本历史挖掘工作流的方法论新颖
实验充分度: ⭐⭐⭐⭐⭐ 多个前沿模型/Agent、人类+自动评估、详细的复杂度分析
写作质量: ⭐⭐⭐⭐⭐ 数据集构建过程透明详尽，统计分析全面
价值: ⭐⭐⭐⭐⭐ 为企业 AI Agent 评估提供了急需的高质量真实基准