BizCompass: Benchmarking the Reasoning Capabilities of LLMs in Business Knowledge and Applications¶

会议: ACL 2026 Findings arXiv: 2604.17305 代码: https://bizcompass.dev.ypemc.com/ 领域: LLM 评估 关键词: 商业推理基准, 知识与应用评估, LLM能力诊断, 金融经济, 双轴设计

一句话总结¶

本文提出 BizCompass，一个连接理论基础与实际应用的商业推理基准，覆盖金融/经济/统计/运营四个知识域和分析师/交易员/顾问三个应用角色，系统评估了开源与闭源 LLM 的商业推理能力，揭示理论知识向实际表现转化的规律。

研究背景与动机¶

领域现状：LLM 在商业应用中前景广阔，但商业分析本质上复杂，需要严谨推理和多元知识整合。现有基准（如 FinBen、CFLUE 等）通常只针对单一狭窄任务（如情感分析、实体抽取），无法回答一个根本问题：LLM 如何在商业中可靠应用，这些应用能力的理论基础是什么？

现有痛点：(1) 现有基准多聚焦金融领域，缺少对经济学、统计学、运营管理等其他商业核心领域的覆盖；(2) 缺乏将理论知识能力与实际应用表现联系起来的诊断框架——知道 LLM 在某个具体任务上表现好/差，但不知道背后是哪些基础能力在起作用。

核心矛盾：模型规模扩大和推理链技术（CoT）并不保证商业推理能力的提升——DeepSeek-R1（671B）在某些任务上甚至不如小得多的闭源模型，说明简单的 scaling 不够，需要深入理解知识与应用之间的映射关系。

本文目标：(1) 构建一个覆盖商业全景的评估基准；(2) 通过双轴设计诊断理论知识如何驱动或限制实际应用表现；(3) 为模型选型和训练优化提供可操作的建议。

切入角度：采用"知识层 + 应用层"的双轴设计——知识层回答"模型掌握了什么"，应用层回答"模型能做什么"，两者交叉分析回答"为什么能/不能"。

核心 idea：用双轴基准将商业 LLM 评估从"任务表现"提升到"能力诊断"层面，不仅衡量做得好不好，还诊断好/差的根因。

方法详解¶

整体框架¶

BizCompass 分为两个层次。知识层覆盖四个核心领域：金融（FIN）、经济学（ECON）、统计学（STAT）、运营管理（OM），每个领域包含多项选择题和开放问答题。应用层围绕三个代表性商业角色设计任务：分析师（数据分析、风险评估）、交易员（市场预测、投资决策）、顾问（战略建议、方案评估）。评估指标包括准确率、F1、ROUGE 和 GPT-Eval（用 GPT-4o 作为评判者的多维度评分）。

关键设计¶

知识层四领域覆盖:
- 功能：全面评估商业理论基础知识
- 核心思路：金融涵盖金融风险管理（FRM）、特许金融分析师（CFA）等专业考试题目；经济学涵盖微观/宏观经济理论；统计学涵盖概率论、假设检验、回归分析等；运营管理涵盖供应链、项目管理、质量控制等。每个领域都包含不同难度的题目
- 设计动机：商业决策不是单一领域的问题，需要跨领域知识的整合。四个领域覆盖了商业分析的核心理论基础
应用层三角色设计:
- 功能：评估理论知识向实际业务技能的转化
- 核心思路：分析师角色要求数据解读、趋势分析、风险量化等分析能力；交易员角色要求市场判断、投资组合构建、风险管理等决策能力；顾问角色要求战略思考、方案评估、客户沟通等综合能力。每个角色对应具体的任务格式（选择题、开放问答、案例分析等）
- 设计动机：不同商业角色对知识的要求和运用方式不同，三个角色覆盖了从定量分析到定性推理的完整谱系
跨域相关性分析:
- 功能：诊断知识能力如何驱动应用表现
- 核心思路：计算知识层四个领域与应用层各任务之间的相关性矩阵。发现分析型/定量任务与 OM 和 STAT 相关性更强，文本型/咨询类任务与知识域相关性较弱。还分析了与代码推理能力（SWE-bench）的相关性，发现正相关
- 设计动机：不只是给出分数，还要解释"为什么"——哪些基础能力是瓶颈，可以指导有针对性的训练

实验关键数据¶

主实验¶

模型	金融 Acc	经济 Acc	统计 Acc	运营 Acc	应用层 Avg Acc
GPT (闭源)	80.4%	83.0%	83.8%	79.3%	79.9%
Gemini (闭源)	82.1%	87.8%	85.7%	82.7%	77.4%
Claude (闭源)	81.8%	85.8%	84.6%	80.2%	75.5%
DeepSeek-R1 (671B)	73.8%	81.7%	70.9%	71.1%	71.3%
Qwen (235B)	78.6%	81.7%	82.1%	80.0%	64.8%
Llama (70B)	52.6%	62.8%	57.8%	60.5%	60.2%

消融实验¶

分析维度	发现	说明
规模 vs 性能	非线性	DeepSeek-R1 (671B) 多项指标不如较小闭源模型
CoT vs 无CoT	不稳定	加入 CoT 不保证提升，效果依赖数据质量和对齐
知识到应用相关性	不均匀	OM/STAT 对分析类任务影响大，FIN/ECON 影响弱
代码推理到商业表现	正相关	SWE-bench 成绩与知识层表现正相关

关键发现¶

闭源模型在知识层和应用层均一致领先，但差距在应用层更为明显，说明应用能力更难通过开源训练习得
模型规模不是决定因素：DeepSeek-R1 (671B) 在统计和运营管理上低于 Qwen (235B)，蒸馏模型更差
跨域相关性分析揭示统计和运营管理知识对分析型应用任务更关键
代码推理能力与商业知识正相关，说明分解推理和结构化思维是共通的底层能力

亮点与洞察¶

双轴设计的诊断能力：不同于传统 benchmark 只给分数，BizCompass 能诊断"为什么好/差"——通过知识层与应用层的交叉分析，可以指出具体的能力瓶颈
"规模不等于能力"的实证：671B 参数的 DeepSeek-R1 在多项商业推理指标上不如较小的闭源模型，有力挑战了 scaling law 在垂直领域的适用性
评估指标的多元化：综合使用准确率、F1、ROUGE 和 GPT-Eval 四种指标适配不同任务类型，评估设计合理

局限与展望¶

知识层主要基于英文考试题目，非英语商业环境下的评估缺失
应用层的三个角色设计虽有代表性，但未覆盖所有商业场景（如人力资源、市场营销等）
GPT-Eval 使用 GPT-4o 作为评判者，存在评判模型自身偏见的风险
数据集是静态的，商业环境快速变化，基准的时效性是挑战
40 页论文中大量篇幅用于展示完整结果表格，核心发现可以更聚焦

评分¶

新颖性: ⭐⭐⭐⭐ 双轴设计有创新性，但 benchmark 论文本身的技术贡献有限
实验充分度: ⭐⭐⭐⭐⭐ 评估了大量开源和闭源模型，指标多元，分析深入
写作质量: ⭐⭐⭐⭐ 结构清晰，但过于冗长（40页）
价值: ⭐⭐⭐⭐ 填补了商业领域 LLM 评估的空白，对行业应用有参考价值