跳转至

FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning

会议: ACL 2025
arXiv: 2412.12567
代码: HYU-NLP/FCMR
领域: NLP / 多模态推理评估
关键词: Cross-Modal Reasoning, Multi-Hop QA, Financial NLP, benchmark, MLLM Evaluation

一句话总结

构建了金融领域跨模态多跳推理基准 FCMR,包含文本、表格和图表三种模态,分 Easy/Medium/Hard 三个难度等级,最强模型 Claude 3.5 Sonnet 在 Hard 级别仅达 30.4% 准确率,揭示了 MLLM 在信息检索阶段的关键瓶颈。

研究背景与动机

现实世界的决策往往需要整合来自多种模态的信息进行推理。例如金融分析师需要同时查看文本报告、表格数据(资产负债表)和图表(趋势图)来做出判断。这种能力被称为跨模态多跳推理(Cross-Modal Multi-Hop Reasoning)

现有评估基准存在两个关键问题:

数据污染:MMQA 等主流基准基于 Wikipedia 构建,而 Wikipedia 是 LLM 预训练的核心数据源。实验表明,GPT-4o 即使不看图片也能在 MMQA 最难子集上达到 43.4% 的 Exact Match,说明模型在"回忆"而非"推理"。

缺乏真正复杂的跨模态多跳问题:MMQA 中真正需要三模态三跳推理的样本仅占 0.8%(205条),绝大多数是单跳或两跳问题。

FCMR 的动机就是解决这两个痛点:用金融领域数据避免污染,设计强制跨三种模态的复杂推理任务。

方法详解

整体框架

作者提出了 CMRGen(Cross-Modal Multi-Hop Reasoning Generator) 框架,用于自动化构建跨模态多跳推理数据集。CMRGen 包含三个阶段:输入数据构建、陈述生成、改写与过滤。该框架高度自动化且成本极低——生成单个问题的成本仅 $0.004,而 MMQA 为 $0.33。

关键设计

  1. 输入数据构建:使用两类金融数据源——SEC EDGAR 的 10-K 年报(文本来源)和 WRDS Compustat 的简化财务报表(表格来源)。通过共享公司实体将两者对齐。每个 FCMR 实例包含一个文档、一个表格和一个图表,涉及三家公司。图表由表格数据绘制,绘制后相关列从表格中移除,确保图表和表格信息不重叠

  2. 陈述生成的分级设计

    • Easy:单模态单跳陈述(但仍需三模态来验证所有陈述的正确性)
    • Medium:跨模态两跳陈述
    • Hard:跨模态三跳陈述——如"在ABBOTT LABORATORIES的fopo值低于730.5的年份中,act值最小的公司有权获得4300万美元的转租收入"——需要依次查图表→查表格→查文本
  3. 干扰项生成策略:不是简单修改数值,而是通过替换公司实体来生成错误陈述。这反映了金融领域多公司分析的真实场景。

  4. 多选题设计:每个问题包含三条陈述,0-3条可能为真。模型需要判断所有陈述的真假,只有完全正确才算对。这种设计比传统单选题复杂得多。

  5. 质量控制:使用 WPD(词位置偏差)和 LD(词汇偏差)评估改写质量,优于 MRPC 和 PAWS 数据集的改写水平。图表类型涵盖折线图、柱状图、散点图和饼图,覆盖约 98% 的 10-K 常见图表类型。

损失函数 / 训练策略

本文是评估基准,不涉及模型训练。但在初步优化实验中探讨了三种提升策略: - Modality Integration:将所有模态转为文本表示 - 4-Stage Reasoning:在 prompt 中显式引导四步推理 - Self-Refine:让模型迭代修正自身答案

三者组合后 Claude 3.5 Sonnet 在 Hard 级别从 32% 提升到 46%。

实验关键数据

主实验(表格)

模型 Easy Medium Hard 平均
Random 12.2 12.9 12.3 12.5
ChartInstruct-Llama2 11.5 12.6 10.8 11.6
MiniCPM-V-2_6 16.4 11.7 13.2 13.7
Qwen2-VL-7B 17.6 13.3 12.0 12.3
Llama 3.2 90B-Vision 42.5 21.6 13.7 25.9
GPT-4o mini 49.1 22.0 13.0 28.1
Gemini 1.5 Pro 63.0 31.2 22.3 38.8
GPT-4o 64.2 43.7 24.4 44.1
Claude 3.5 Sonnet 75.4 50.8 30.4 52.2

消融实验:数据污染验证(表格)

数据集 是否有图片 准确率
MMQA Hard 43.4%
MMQA Hard 63.4%
FCMR Hard 14.7%
FCMR Hard 24.4%

FCMR 去掉图表后性能降至接近随机(12.3%),证明数据不受污染

关键发现

  1. 信息检索是最大瓶颈:通过四阶段细粒度分析(规划→模态识别→信息检索→信息推理),发现 MLLM 最容易在"信息检索"阶段失败——即使正确识别了信息在哪个模态,也经常无法准确提取

  2. 模型处理第二模态时急剧退化:在处理第一条陈述的第一个模态时表现尚可,但进入第二个模态后成功率断崖式下降

  3. 图表理解是弱项:Claude 在 Easy 级别中,75% 的错误与图表相关。散点图最难(23.4% Hard 准确率),折线图和柱状图稍好

  4. 模型倾向保守策略:不确定时倾向于判断为"假",牺牲召回率以降低假阳性

  5. 趋势误判是最常见错误:在100个 Claude 错误样本中,35例是图表趋势误读,16例是排名错误

亮点与洞察

  • 数据构建成本极低($0.004/问题),且框架可迁移到其他领域(论文附录展示了材料科学的应用)
  • 多选题允许0-3个正确答案的设计比传统单选更能测试真正的推理能力
  • 四阶段分析方法为理解 MLLM 推理失败提供了有价值的框架
  • 揭示了一个反直觉的现象:给 GPT-4o 用 Deplot 转表格后在 Hard 级别反而比直接看图高(32.9% vs 24.4%),说明 MLLM 的视觉理解仍不如结构化文本处理

局限与展望

  1. 仅覆盖金融领域,虽然框架可扩展但尚未大规模验证
  2. 分析部分依赖人工检查,未来可探索自动化分析
  3. 图表为合成生成而非来自真实的 10-K 报告,可能与实际文档的图表复杂度有差异
  4. 最优策略组合仍仅达 46% Hard 准确率,说明需要更根本性的方法创新

相关工作与启发

  • MMQA(Talmor et al., 2021):跨模态多跳推理的事实标准,但存在数据污染和三跳样本稀缺问题
  • HybridQA、FinQA、TAT-QA 等仅涵盖两种模态
  • ManyModalQA、CT2C-QA 涵盖三种模态但缺少跨模态多跳推理
  • WebQA、MuMuQA 仅关注两跳推理
  • 与这些工作最大的差异是 FCMR 所有 Hard 级别问题都强制要求三模态三跳推理

评分

  • 新颖性: ⭐⭐⭐⭐ 金融领域跨三模态三跳推理的设计独特,多选题形式有创意
  • 实验充分度: ⭐⭐⭐⭐⭐ 模型覆盖全面,分析维度丰富(模态级、阶段级、错误分类、图表类型),人工分析深入
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,图表设计精美,分析层层递进
  • 价值: ⭐⭐⭐⭐ 为 MLLM 多模态推理能力提供了一个高质量的测试平台,揭示了重要的能力缺陷

相关论文