FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use¶

日期: 2026-03-09
arXiv: 2603.08262
代码: 即将开源（tool manifest + 执行环境 + 评估代码）
领域: LLM Agent
关键词: financial benchmark, tool use, LLM agent, compliance evaluation, trustworthy AI

一句话总结¶

构建首个可执行的金融工具使用 benchmark FinToolBench（760 个真实金融 API + 295 条工具依赖查询），提出超越二元执行成功的评估维度——时效性/意图约束/监管域对齐三个合规指标，以及 FATR 金融感知工具检索 baseline。

研究背景与动机¶

领域现状: LLM agent 被越来越多地部署为金融数据的接口，将自然语言请求转化为 API 调用序列。通用工具 benchmark（API-Bank、StableToolBench）评估 API 调用正确性，但不考虑金融特有约束。
现有痛点: (a) 金融 benchmark 主要聚焦静态文本分析/文档 QA，不涉及工具执行；(b) 通用工具 benchmark 缺少金融领域特有的严格性——数据时效性、合规约束、快速波动性；(c) 评估只看"是否执行成功"忽视了三个关键失败模式：过时数据（问"当前"汇率却返回日快照）、意图升级（信息查询被升级为交易操作）、域不匹配（股票 API 回答加密货币问题）。
核心 idea: 评估金融 agent 不仅要看能力（是否调用成功）还要看合规（调用链是否在金融约束下可接受），提出 call-level compliance mismatch rates。

方法详解¶

整体框架¶

8 阶段构建流水线：原始工具收集 → 可执行性过滤 → 统一 manifest 标准化 → 金融属性标注 → 问题生成/筛选 → 工具-问题对齐 → 人工质检 → 最终 benchmark。

关键设计¶

760 工具库:
- 来源：RapidAPI（第三方市场 API）+ AkShare（开源 Python 金融库）
- 从 5470 个候选接口过滤到 760 个可用工具
- 每个工具规范化为统一 manifest（稳定 ID + 描述 + 标准化签名 + 参数类型 + 对齐输出 schema）
金融属性标注:
- update_frequency: realtime / daily / as_filed / periodic / static → 评估时效性
- intent_type: informational / advisory / transactional → 评估意图约束
- regulatory_domain: 集合值域（股票/加密/外汇等）→ 评估监管域对齐
- 在 tool manifest 中为每个 API 标注这三个属性
三维合规评估指标:
- TMR (Timeliness Mismatch Rate): 时效性不匹配率，如用 daily 数据回答需要 realtime 的查询
- IMR (Intent Mismatch Rate): 意图升级率，如信息查询调用了交易 API
- DMR (Domain Mismatch Rate): 域不匹配率，如用股票工具回答加密货币问题
- 从完整工具执行 trace 中计算
FATR Baseline（Finance-Aware Tool Retrieval）:
- 检索小候选集 + 注入金融属性到 tool card + 缓存/重试/输出压缩稳定执行
- 轻量级，为未来研究提供参考基线

评估协议¶

295 条问题（166 单工具 + 129 多工具）
每次运行产生审计级工具 trace（step/tool_name/parameters/output/error）
LLM-as-judge 重复评分 + capability/compliance 分离

实验关键数据¶

主实验（不同 LLM 的能力+合规评估）¶

模型	调用成功率	执行成功率	TMR ↓	IMR ↓	DMR ↓
GPT-4o	82.3%	71.5%	18.2%	5.1%	12.4%
Claude-3.5	79.8%	68.9%	20.5%	6.3%	14.7%
GPT-4o + FATR	85.7%	76.2%	12.1%	3.2%	8.5%

消融实验¶

配置	执行成功率	TMR
无金融属性注入	71.5%	18.2%
+ 金融属性注入	74.8%	14.3%
+ 缓存/重试	76.2%	12.1%

关键发现¶

所有模型的 TMR 都很高（~20%），说明时效性是最容易犯的金融错误
FATR 的金融属性注入有效降低了合规违规率
多工具查询的合规问题比单工具严重得多
即使执行成功的 trace 也可能在合规维度上有问题

亮点与洞察¶

"能力 vs 合规"分离评估: 金融领域核心贡献——执行成功不等于可信
审计级 trace 设计: 每次 API 调用都可追溯，对金融监管至关重要
三个金融专属 mismatch rate: TMR/IMR/DMR 精准刻画了金融 agent 的三类典型失败
真实 API + 实际执行: 不是 mock 环境，涉及真实的 rate limit、数据波动、API 不稳定

局限性 / 可改进方向¶

仅使用免费层 API，覆盖面有限（高级金融数据通常付费，如 Bloomberg/Reuters 终端数据）
295 条问题规模偏小，多工具链路长度有限，未涉及 5+ 步长链调用
合规指标依赖预标注的金融属性，标注质量影响评估准确性
未涉及安全性测试（如恶意交易指令的检测和拒绝）
缺少中文金融 API 和 A 股市场工具的覆盖

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个可执行的金融工具 benchmark + 合规评估框架
实验充分度: ⭐⭐⭐⭐ 多模型对比 + FATR baseline + 合规分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，pipeline 详尽
价值: ⭐⭐⭐⭐⭐ 对金融 AI agent 的信任和审计至关重要