EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements¶

会议: ICLR 2026 arXiv: 2506.08762 代码: GitHub 领域: 时间序列 关键词: financial benchmark, LLM evaluation, fraud detection, earnings forecasting, Japanese NLP

一句话总结¶

构建了基于日本 EDINET 十年年报的金融基准 EDINET-Bench，包含会计欺诈检测、盈利预测和行业分类三项专家级任务，发现即使是 SOTA LLM 也仅略优于逻辑回归。

研究背景与动机¶

领域现状: LLM 在数学、编程等领域已超越人类表现，基准数据集是推动进步的关键驱动力。但金融领域基准数据集相对匮乏，现有基准（FinQA、ConvFinQA 等）多为简单 QA 或数据抽取任务。
现有痛点: 现有金融基准不涉及专家级推理（如整合多张报表和文本段落），无法评估 LLM 在真实高风险金融任务上的能力。
核心矛盾: LLM 在通用任务上表现优越，但金融领域需要同时处理大量表格数据和文本信息，并进行跨年度复杂推理。
本文要解决什么: 提供首个开源的、需要专家级推理的日语金融基准，特别是首个开放的会计欺诈检测数据集。
切入角度: 利用日本 EDINET 系统（类似美国 EDGAR）十年的真实年报数据，构建三个挑战性任务。
核心idea一句话: 真实年报 + 专家级金融任务 = 揭示 LLM 在金融推理上的不足。

方法详解¶

整体框架¶

数据管线: EDINET API → edinet2dataset 工具解析 → EDINET-Corpus（~40,000 份年报）→ 三个基准任务。

关键设计¶

edinet2dataset 工具: 使用 EDINET API 下载年报，Polars 高速解析 TSV 格式，提取 Meta/Summary/BS/PL/CF/Text 六大类信息。覆盖 2014-2025 十年约 41,691 份年报。
会计欺诈检测: 从修正年报中提取 6,712 份修正报告，用 Claude 3.7 Sonnet 判断修正原因是否涉及欺诈（668份确认为欺诈），人工审核误标率 <5%。非欺诈样本随机抽取700家，按公司分割为训练集（865）和测试集（224）。
盈利预测: 随机选1000家公司，构建连续两年年报对，比较"归母净利润"增减方向作为标签。按时间分割（2020年前为训练集），549训练 + 451测试。
行业分类: 基于 SICC 的 TOPIX-33 合并为16个大类，每类约35家公司，共496测试样本。

评估设置¶

零样本 prompt：系统提示"You are a financial analyst"，输入年报的不同组合（Summary only / +BS+CF+PL / +Text）
模型：GPT-4o, o4-mini, GPT-5, Claude 3.5 Haiku/Sonnet, Claude 3.7 Sonnet, Kimi-K2, DeepSeek-V3/R1, Llama 3.3 70B
经典基线：Logistic Regression, Random Forest, XGBoost

实验关键数据¶

主实验¶

欺诈检测 ROC-AUC（部分）:

模型	Summary	+BS/CF/PL	+Text
Claude 3.5 Sonnet	0.64	0.63	0.73
GPT-5	0.56	0.62	0.67
Logistic Regression†	-	0.61	-

盈利预测 ROC-AUC:

模型	Summary	+BS/CF/PL	+Text
GPT-5	0.58	0.62	0.65
Claude 3.7 Sonnet	0.55	0.58	0.61
Logistic Regression†	-	0.60	-

消融实验¶

输入信息量的消融:

输入配置	欺诈检测(avg)	盈利预测(avg)
Summary only	~0.58	~0.48
+BS/CF/PL	~0.59	~0.52
+Text	~0.64	~0.52

关键发现¶

LLM 仅略优于逻辑回归: 在二分类任务上，最强 LLM 的 MCC 也仅在 0.1-0.3 之间
文本信息有帮助: 加入 Text 段后欺诈检测 ROC-AUC 平均提升 ~0.06
开源模型落后: DeepSeek-V3/R1 在金融任务上明显弱于闭源模型
行业分类相对简单: 提供完整报表后 Claude 3.5 Sonnet 达 41% 准确率（16类随机基线 6.25%）
每份年报约30K tokens，单次推理成本约$0.1（Claude 3.7 Sonnet）

亮点与洞察¶

首个开源会计欺诈检测数据集: 此前无公开的欺诈检测评估基准
edinet2dataset 工具开源: 提供了从 EDINET 构建金融数据集的完整管线，基于 Polars 高速解析 TSV
诚实的结论: 直言仅提供年报让 LLM 直接推理是不够的，需要更多脚手架（如模拟环境、任务特定推理支持）
跨语言价值: 日语金融基准填补了非英语金融 NLP 的空白
实验设计严谨: 多种输入配置的消融，经典ML基线的对比，成本分析透明
标签质量控制: 欺诈标签经 Claude 判断 + 人工审核，误标率 <5%

局限性 / 可改进方向¶

仅评估零样本设置，缺少 few-shot 和 RAG 实验，未探索 chain-of-thought 等推理增强
欺诈标签由 Claude 3.7 Sonnet 生成而非完全人工标注，可能存在系统性偏差
评估的 LLM 多数对日语金融术语理解有限，特别是开源模型
数据仅覆盖日本市场，未评估跨国泛化能力
缺少对 LLM 推理过程的深入分析（如关注哪些报表项目、推理路径可视化等）
fine-tuned Llama-3.2-1B 未展示完整结果，缺少小模型微调的充分探索
欺诈检测和盈利预测均为二分类，未探索更细粒度的回归任务
年报长度约30K tokens，接近部分模型的上下文限制，可能影响结果

评分¶

新颖性: ⭐⭐⭐⭐ 首个开源欺诈检测基准，但任务本身设计较为直接
实验充分度: ⭐⭐⭐⭐ 覆盖10+模型和3种输入配置，但缺少 few-shot 等进阶实验
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建流程详尽，表格丰富
价值: ⭐⭐⭐⭐ 开源工具和数据集对金融 NLP 社区有实际贡献，揭示 LLM 金融推理的不足