FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation¶
会议: ACL 2025
arXiv: 2505.24714
代码: https://github.com/luo-junyu/FinMME (有)
领域: 多模态大模型评估 / 金融NLP
关键词: 多模态评估, 金融基准, 幻觉惩罚, 图表理解, MLLM
一句话总结¶
构建了一个包含 11,000+ 高质量金融多模态样本的评估基准 FinMME,涵盖 18 个金融领域和 10 种图表类型,提出了融合幻觉惩罚和领域归一化的 FinScore 评估体系,实验表明即使 GPT-4o 也仅得 47 分,揭示了 MLLM 在金融领域的显著不足。
研究背景与动机¶
多模态大语言模型(MLLM)近年来发展迅速,在通用基准(如 MME、MMMU、MMBench)上表现优异,准确率已达 80-90%。然而,金融领域具有以下独特挑战:
知识高度密集:金融数据包含专业术语、复杂的数量关系和特定领域的推理逻辑
对准确度零容忍:与通用场景不同,金融决策中的错误(尤其是幻觉)可能导致严重经济损失
多模态数据丰富:金融研报中大量使用图表(K线图、饼图、热力图等),需要跨模态理解能力
核心矛盾在于:现有通用多模态基准无法有效区分模型在知识密集型金融场景中的能力差异。MMMU 虽有金融子集(仅 390 题),但规模过小;MME-Finance 并行工作虽针对金融,但数据量有限(1171 题)且标注质量存疑(未全部由人工标注)。
本文的解决方案是构建 FinMME——一个规模大(11,099 题)、质量高(20 人标注团队、关键误差率 <1%)、覆盖全面(18 个金融领域、6 种资产类别、10 种图表类型)的金融专用多模态评测基准,并设计了创新的 FinScore 评价体系来公平且严格地评估模型。
方法详解¶
整体框架¶
FinMME 的构建遵循三阶段流水线: 1. 数据收集与清洗:从专业研报和网页截图中提取高质量金融图表和文本 2. 标注:人工与 LLM 并行标注,通过内外一致性检查确保质量 3. 质量控制:一致标注由单专家验证,不一致标注由多专家裁定
关键设计¶
-
精细化数据标签体系:
- 知识领域:18 个核心金融领域(TMT、消费、医药、金融、房地产等),全面覆盖现代金融知识体系
- 资产类别:6 类(股票、外汇、利率、大宗商品、信用、跨资产),支持不同市场板块的针对性评估
- 数据类别:10 个主类、21 个子类(时间序列、分布图、比例图、关系图、财报等),反映实际金融分析中的图表多样性
- 每个样本附带图片、图片标题、研报描述、层次化元数据和 QA 标注
-
三层认知评估框架:
- 综合感知(Comprehensive Perception):评估时间序列识别、横向比较、多图表分析能力,2333 题
- 细粒度感知(Fine-grained Perception):考察数值提取和局部变化分析能力,6466 题
- 认知与推理(Cognition and Reasoning):涵盖数据推断、跨模态理解、趋势预测、因果分析等高级推理,2300 题
- 问题类型包括单选、多选和计算题,多选题比例高于现有基准,用以更好地检测幻觉
-
创新的质量控制机制:
- 采用人工与多 LLM 并行标注的 "双轨" 策略
- 利用 LLM 的外部一致性(多个 LLM 预测)和内部一致性(与人工标注对比)来检测错误
- 当人机标注一致时,单专家验证;不一致时,多专家联合审查
- 20 名标注者(12 初级 + 8 专家),累计投入约 800 小时
FinScore 评估体系¶
FinScore 将领域归一化性能与幻觉惩罚相结合:
-
单题得分(多选题):\(S_q = \max(0, \frac{c}{n} - \frac{i}{s})\),其中 c 为正确选择数、n 为选项总数、i 为错误选择数、s 为模型选择总数。惩罚过度选择的幻觉行为
-
领域归一化得分:\(F = \frac{1}{K}\sum_{k=1}^{K}\frac{1}{N_k}\sum_{i=1}^{N_k}S_{k,i}\),先域内平均再域间平均,确保不同难度领域公平贡献
-
最终 FinScore:\(\mathcal{F} = F \cdot (1 - P_H)\),其中 \(P_H = \text{mean}(\frac{i}{s})\) 为幻觉惩罚率。乘法组合确保高幻觉率的模型受到严厉惩罚
实验关键数据¶
主实验¶
| 模型 | 综合感知 | 细粒度感知 | 推理 | 平均 | FinScore |
|---|---|---|---|---|---|
| Gemini Flash 2.0 | 49.89 | 59.07 | 48.71 | 51.85 | 20.10 |
| Claude 3.5 Sonnet | 45.99 | 55.28 | 43.35 | 48.20 | 15.61 |
| GPT-4o | 44.33 | 53.49 | 42.24 | 46.56 | 15.34 |
| GPT-4o Mini | 41.91 | 48.47 | 42.88 | 43.72 | 11.70 |
| Qwen2.5-VL 72B | 49.64 | 60.25 | 49.44 | 52.54 | 20.87 |
| InternVL 2.5-8B | 37.96 | 51.83 | 35.33 | 41.90 | 10.42 |
| Qwen2.5-VL 3B | 32.53 | 52.55 | 30.70 | 39.87 | 6.95 |
| Phi-3.5 V | 25.73 | 43.37 | 26.46 | 33.13 | 2.85 |
开源的 Qwen2.5-VL 72B 超越了所有闭源模型,成为表现最佳的模型。
消融实验(维度对比分析)¶
| 评估维度 | 单选题 | 多选题 | 计算题 | 说明 |
|---|---|---|---|---|
| 综合感知 | - | - | - | 需要全局图表理解 |
| 细粒度感知 | 较高 | 较低 | - | 数值定位能力差异大 |
| 认知推理 | - | - | 35.59 (最佳) | 计算题最具挑战 |
按题型分析: - 单选题(58-65%)远高于多选题(25-55%),说明多选题有效检测了幻觉 - 计算题整体最低(7-37%),暴露了数学推理短板
FinScore 的压缩效应: - GPT-4o 平均分 46.56 → FinScore 仅 15.34,惩罚率约 67% - 这说明即使答对了不少题,大量的错误选择(幻觉)严重拉低了最终得分
关键发现¶
- 闭源 vs. 开源:Qwen2.5-VL 72B 是唯一超越所有闭源模型的开源模型(FinScore 20.87 vs. GPT-4o 15.34)
- 规模效应:DeepSeekVL-2 系列中,Full > Small > Tiny,表现出清晰的参数量-性能正相关
- 鲁棒性:不同 prompt 下预测标准差低于 1%,远优于现有通用基准
- 领域差异:TMT 和消费品领域得分普遍较高(信息更常见),衍生品和固收量化较低(专业性更强)
- 细粒度感知悖论:小模型在细粒度感知上的得分有时接近大模型,但在 FinScore 上差距巨大,因为小模型幻觉率更高
亮点与洞察¶
- FinScore 的设计哲学:在金融场景中,"不知道" 比 "猜错" 更有价值,FinScore 通过乘法惩罚机制体现了这一理念。这是对金融 AI 评估的重要贡献
- LLM 辅助标注的创新用法:不是让 LLM 替代人工标注,而是用多 LLM 的一致性/不一致性来辅助质量控制,这种人机协作标注范式值得推广
- 多选题作为幻觉检测器:通过增加多选题比例和引入惩罚机制,有效地将 "瞎猜" 与 "真正理解" 区分开来
- 规模效应逆转:开源 72B 模型超越闭源顶级模型的现象说明,在垂直领域中,模型架构和训练数据可能比品牌更重要
局限与展望¶
- 数据来源偏向:主要来自中文金融研报,缺乏对欧美市场、新兴市场的覆盖
- 静态评估:金融是动态环境,当前基准无法评估模型对时效性信息的处理能力
- 缺少开放式生成任务:全部为选择题和计算题,无法评估模型的金融文本生成、报告撰写等能力
- 幻觉惩罚可能过于严厉:乘法组合使得中等准确但有少量幻觉的模型得分极低,可能低估了其实际使用价值
- 可拓展方向:引入时间衰减权重、增加实时数据任务、支持多轮交互式金融问答评估
相关工作与启发¶
- 与 MME-Finance (Gan et al., 2024) 是并行工作,但 FinMME 在数据量(11K vs. 1.2K)和标注质量上有显著优势
- MMMU 的金融子集仅 390 题,无法提供稳定可靠的评估
- FinScore 的设计思路可推广到其他对准确度要求极高的领域(如医疗、法律)
- 层次化评估框架(感知→推理)类似于 Bloom 分类法在 AI 评估中的应用
评分¶
- 新颖性: ⭐⭐⭐⭐ 金融多模态评估是空白领域,FinScore 设计有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 测试了 17 个模型,多维度分析详尽,鲁棒性验证充分
- 写作质量: ⭐⭐⭐⭐ 结构完整清晰,但部分统计描述冗余
- 价值: ⭐⭐⭐⭐⭐ 填补了金融 MLLM 评估空白,FinScore 具有实际应用价值
相关论文¶
- [ACL 2025] AGRI-CM3: A Chinese Massive Multi-Modal Multi-Level Benchmark for Agricultural Understanding
- [ACL 2025] REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark
- [ICCV 2025] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools
- [ACL 2025] Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach
- [CVPR 2025] Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation