FCMR: Robust Evaluation of Financial Cross-Modal Multi-Hop Reasoning¶

会议: ACL 2025
arXiv: 2412.12567
代码: HYU-NLP/FCMR
领域: NLP / 多模态推理评估
关键词: Cross-Modal Reasoning, Multi-Hop QA, Financial NLP, benchmark, MLLM Evaluation

一句话总结¶

构建了金融领域跨模态多跳推理基准 FCMR，包含文本、表格和图表三种模态，分 Easy/Medium/Hard 三个难度等级，最强模型 Claude 3.5 Sonnet 在 Hard 级别仅达 30.4% 准确率，揭示了 MLLM 在信息检索阶段的关键瓶颈。

研究背景与动机¶

现实世界的决策往往需要整合来自多种模态的信息进行推理。例如金融分析师需要同时查看文本报告、表格数据（资产负债表）和图表（趋势图）来做出判断。这种能力被称为跨模态多跳推理（Cross-Modal Multi-Hop Reasoning）。

现有评估基准存在两个关键问题：

数据污染：MMQA 等主流基准基于 Wikipedia 构建，而 Wikipedia 是 LLM 预训练的核心数据源。实验表明，GPT-4o 即使不看图片也能在 MMQA 最难子集上达到 43.4% 的 Exact Match，说明模型在"回忆"而非"推理"。

缺乏真正复杂的跨模态多跳问题：MMQA 中真正需要三模态三跳推理的样本仅占 0.8%（205条），绝大多数是单跳或两跳问题。

FCMR 的动机就是解决这两个痛点：用金融领域数据避免污染，设计强制跨三种模态的复杂推理任务。

方法详解¶

整体框架¶

作者提出了 CMRGen（Cross-Modal Multi-Hop Reasoning Generator） 框架，用于自动化构建跨模态多跳推理数据集。CMRGen 包含三个阶段：输入数据构建、陈述生成、改写与过滤。该框架高度自动化且成本极低——生成单个问题的成本仅 $0.004，而 MMQA 为 $0.33。

关键设计¶

输入数据构建：使用两类金融数据源——SEC EDGAR 的 10-K 年报（文本来源）和 WRDS Compustat 的简化财务报表（表格来源）。通过共享公司实体将两者对齐。每个 FCMR 实例包含一个文档、一个表格和一个图表，涉及三家公司。图表由表格数据绘制，绘制后相关列从表格中移除，确保图表和表格信息不重叠。
陈述生成的分级设计：
- Easy：单模态单跳陈述（但仍需三模态来验证所有陈述的正确性）
- Medium：跨模态两跳陈述
- Hard：跨模态三跳陈述——如"在ABBOTT LABORATORIES的fopo值低于730.5的年份中，act值最小的公司有权获得4300万美元的转租收入"——需要依次查图表→查表格→查文本
干扰项生成策略：不是简单修改数值，而是通过替换公司实体来生成错误陈述。这反映了金融领域多公司分析的真实场景。
多选题设计：每个问题包含三条陈述，0-3条可能为真。模型需要判断所有陈述的真假，只有完全正确才算对。这种设计比传统单选题复杂得多。
质量控制：使用 WPD（词位置偏差）和 LD（词汇偏差）评估改写质量，优于 MRPC 和 PAWS 数据集的改写水平。图表类型涵盖折线图、柱状图、散点图和饼图，覆盖约 98% 的 10-K 常见图表类型。

损失函数 / 训练策略¶

本文是评估基准，不涉及模型训练。但在初步优化实验中探讨了三种提升策略： - Modality Integration：将所有模态转为文本表示 - 4-Stage Reasoning：在 prompt 中显式引导四步推理 - Self-Refine：让模型迭代修正自身答案

三者组合后 Claude 3.5 Sonnet 在 Hard 级别从 32% 提升到 46%。

实验关键数据¶

主实验（表格）¶

模型	Easy	Medium	Hard	平均
Random	12.2	12.9	12.3	12.5
ChartInstruct-Llama2	11.5	12.6	10.8	11.6
MiniCPM-V-2_6	16.4	11.7	13.2	13.7
Qwen2-VL-7B	17.6	13.3	12.0	12.3
Llama 3.2 90B-Vision	42.5	21.6	13.7	25.9
GPT-4o mini	49.1	22.0	13.0	28.1
Gemini 1.5 Pro	63.0	31.2	22.3	38.8
GPT-4o	64.2	43.7	24.4	44.1
Claude 3.5 Sonnet	75.4	50.8	30.4	52.2

消融实验：数据污染验证（表格）¶

数据集	是否有图片	准确率
MMQA Hard	✗	43.4%
MMQA Hard	✓	63.4%
FCMR Hard	✗	14.7%
FCMR Hard	✓	24.4%

FCMR 去掉图表后性能降至接近随机（12.3%），证明数据不受污染

关键发现¶

信息检索是最大瓶颈：通过四阶段细粒度分析（规划→模态识别→信息检索→信息推理），发现 MLLM 最容易在"信息检索"阶段失败——即使正确识别了信息在哪个模态，也经常无法准确提取
模型处理第二模态时急剧退化：在处理第一条陈述的第一个模态时表现尚可，但进入第二个模态后成功率断崖式下降
图表理解是弱项：Claude 在 Easy 级别中，75% 的错误与图表相关。散点图最难（23.4% Hard 准确率），折线图和柱状图稍好
模型倾向保守策略：不确定时倾向于判断为"假"，牺牲召回率以降低假阳性
趋势误判是最常见错误：在100个 Claude 错误样本中，35例是图表趋势误读，16例是排名错误

亮点与洞察¶

数据构建成本极低（$0.004/问题），且框架可迁移到其他领域（论文附录展示了材料科学的应用）
多选题允许0-3个正确答案的设计比传统单选更能测试真正的推理能力
四阶段分析方法为理解 MLLM 推理失败提供了有价值的框架
揭示了一个反直觉的现象：给 GPT-4o 用 Deplot 转表格后在 Hard 级别反而比直接看图高（32.9% vs 24.4%），说明 MLLM 的视觉理解仍不如结构化文本处理

局限与展望¶

仅覆盖金融领域，虽然框架可扩展但尚未大规模验证
分析部分依赖人工检查，未来可探索自动化分析
图表为合成生成而非来自真实的 10-K 报告，可能与实际文档的图表复杂度有差异
最优策略组合仍仅达 46% Hard 准确率，说明需要更根本性的方法创新

评分¶

新颖性: ⭐⭐⭐⭐ 金融领域跨三模态三跳推理的设计独特，多选题形式有创意
实验充分度: ⭐⭐⭐⭐⭐ 模型覆盖全面，分析维度丰富（模态级、阶段级、错误分类、图表类型），人工分析深入
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图表设计精美，分析层层递进
价值: ⭐⭐⭐⭐ 为 MLLM 多模态推理能力提供了一个高质量的测试平台，揭示了重要的能力缺陷