Financial Instruction Following Evaluation (FIFE)¶
会议: NeurIPS 2025 (GenAI Finance Workshop)
arXiv: 2512.08965
代码: https://github.com/gtfintechlab/FIFE
领域: NLP理解 / LLM评估
关键词: 指令遵循, 金融领域, 基准测试, 可链式约束, LLM评测
一句话总结¶
FIFE 是一个面向金融分析任务的高难度指令遵循基准,包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束,通过严格/宽松两种模式评测 53 个模型,揭示出即使最强的开放权重模型(76.1% strict)也无法完美遵循金融领域的复杂指令要求。
研究背景与动机¶
领域现状:语言模型在通用指令遵循上已相当成熟,IFEval 等基准被广泛使用来评估模型的指令遵循能力。然而,金融领域对精确性要求极高——错误的数字格式、遗漏的风险警告、不规范的合规声明都可能带来严重后果。
现有痛点:现有指令遵循基准(如 IFEval)主要针对通用任务,缺乏金融领域的专门约束。金融分析涉及大量领域特定的复杂要求:如 Black-76 期权定价的 LaTeX 公式、VaR 计算的特定数字格式、10b-5 合规规则的特定编号格式等。这些约束之间往往相互依赖,构成链式约束——当前无基准能系统性评测模型在此类复杂约束下的表现。
核心矛盾:金融领域对指令遵循的要求远高于通用场景,但评测工具的能力远低于需求。通用基准无法捕捉金融特有的约束类型,导致对模型在金融场景中真实能力的评估失真。
本文目标 构建一个高难度的金融指令遵循基准,具备:(1) 涵盖多个金融子领域的专用约束;(2) 可链式组合的自动化验证系统;(3) 提供细粒度的奖励信号以支持 RL 训练。
切入角度:基于 IFEval 框架进行金融领域的深度定制——设计 40+ 种金融专用的指令检查器(instruction checkers),覆盖从股票分析到衍生品定价、从合规报告到 ESG 评估的广泛场景。每个检查器可独立验证,也可链式组合形成复杂的多约束提示。
核心 idea:用 40+ 种可链式验证的金融专用指令约束构建高难度基准,为金融领域的 RL 训练提供精确的奖励信号。
方法详解¶
整体框架¶
FIFE 的流水线:(1) 88 个人工编写的提示,每个包含 1-5 个金融领域约束;(2) 模型生成回复;(3) 自动化验证系统逐约束检查,输出 prompt 级和 instruction 级的准确率;(4) 支持 strict(精确匹配)和 loose(容忍轻微格式偏差)两种评估模式。
关键设计¶
-
金融领域专用指令检查器体系:
- 功能:覆盖 10+ 个金融子领域的 40+ 种约束类型
- 核心思路:每种检查器继承自 InstructionChecker 基类,实现
build_description(生成约束描述)和check_following(验证是否遵循)两个方法。覆盖领域包括:权益分析(加粗开头+斜体风险)、信用利差分析(表格格式)、外汇计算(代码块限制)、合规报告(编号格式)、衍生品定价(Black-76 LaTeX)、VaR 计算(加粗美元符号)、ESG 报告、私募股权等 - 设计动机:通用指令检查器(如"限制字数"、"使用编号列表")无法捕捉金融领域的专业约束,需要领域专家设计特定的验证逻辑
-
可链式约束组合系统:
- 功能:将多个简单约束组合为复杂的多约束提示,提供细粒度奖励信号
- 核心思路:每个提示包含一组约束 ID 列表(
instruction_id_list),验证时逐个检查。一个提示可能同时要求"用加粗标题描述风险"+"用表格展示利差分析"+"包含合规免责声明"。每个约束独立产生二值反馈,构成向量化奖励 - 设计动机:链式约束使难度可控(1 个约束 vs 5 个约束),且向量化奖励比简单的 pass/fail 为 RL 训练提供更丰富的梯度信息
-
双模式评估(Strict / Loose):
- 功能:区分格式精确度和内容正确性
- 核心思路:Strict 模式精确匹配,不容忍格式偏差;Loose 模式测试多种回复变体——移除 markdown 标记、裁剪版本等。两种模式的差距反映模型在"理解约束"vs"精确执行格式"上的能力差异
- 设计动机:模型可能理解了约束意图但格式细节(如多了一个空行)导致 strict 判定失败,loose 模式帮助区分这两种能力
损失函数 / 训练策略¶
FIFE 本身是评测基准而非训练方法。零样本评测所有模型,不做 few-shot 或微调。约束验证结果可作为 RL 的外部奖励信号。
实验关键数据¶
主实验¶
| 模型类别 | 最佳模型 | Strict 准确率 | Loose 准确率 |
|---|---|---|---|
| 开放权重 | (Top open-weight) | 76.1% | 79.5% |
| 专有模型 | (Top proprietary) | 65.9% | 70.5% |
| 开源模型 | (Top open-source) | 45.5% | 48.9% |
消融实验¶
| 评估细节 | 指标类型 | 典型结果 |
|---|---|---|
| Prompt 级准确率 | 所有约束全部满足的比例 | 随约束数增加急剧下降 |
| Instruction 级准确率 | 单个约束满足的比例 | 高于 prompt 级 2-9 个百分点 |
| Strict vs Loose 差距 | 格式精确度 | 3-5 个百分点的差距 |
关键发现¶
- 开放权重 > 专有模型:这一结果打破了"专有模型更强"的刻板印象,在金融领域特定约束上开放权重模型展现出更强的指令遵循能力
- 即使最强模型也无法完美遵循:76.1% 的 strict 准确率说明金融领域的复杂链式约束对当前所有 LLM 都构成实质挑战
- 开源模型大幅落后(45.5%),与开放权重和专有模型的差距约 20-30 个百分点
- Strict 和 Loose 之间的差距(3-5%)表明一部分失败来自格式细节而非对约束的理解
亮点与洞察¶
- 细粒度奖励信号的设计很有远见。每个约束独立验证产生的向量化反馈比简单的 binary pass/fail 更适合 RL 训练——这使 FIFE 不仅是评测工具,更是 RL for finance 的基础设施
- 金融约束的领域特异性设计得很实际。如
fin:deriv:black76_latex_sigma要求用 LaTeX 写出 Black-76 定价公式——这类约束无法从通用基准中获得,体现了金融领域评测的不可替代性 - 该方法论可迁移到其他高风险领域(医疗、法律)——设计领域专用的可链式约束检查器即可
局限与展望¶
- 88 个提示的规模较小,可能不足以覆盖金融领域的全部约束类型和难度分布
- 仅评测零样本能力,未探索 few-shot、CoT 或微调后的表现差异
- 验证系统基于规则匹配,可能存在假阳性/假阴性——如模型用等价但不同格式的 LaTeX 公式
- 未具体报告哪些约束类型最难遵循,缺少细粒度的错误分析
- 论文中模型名称有些模糊("top open-weight model"),未完全明确具体是哪个模型
- 作为 Workshop 论文,实验规模和深度有限
相关工作与启发¶
- vs IFEval (Google): FIFE 基于 IFEval 的框架和评估逻辑(evaluation_lib.py 适配自 IFEval),但将通用约束替换为 40+ 种金融专用约束,难度大幅提升
- vs FinBen / FinGPT: 现有金融 NLP 基准侧重知识问答、情感分析等任务,而 FIFE 专注于指令遵循这一正交维度——模型可能"知道"金融知识但无法按要求的格式输出
- 对于构建金融领域 RLHF 数据集有直接启发——FIFE 的约束检查器可直接作为奖励模型的规则部分
评分¶
- 新颖性: ⭐⭐⭐ 框架基于 IFEval 的延伸,核心创新在金融约束设计而非方法论
- 实验充分度: ⭐⭐⭐ 53 个模型的评测规模不错,但分析深度有限
- 写作质量: ⭐⭐⭐ Workshop 论文的标准写作,简洁但细节不够
- 价值: ⭐⭐⭐⭐ 填补了金融领域指令遵循评测的空白,对 RL for finance 有实际意义
相关论文¶
- [NeurIPS 2025] Generalizing Verifiable Instruction Following
- [ACL 2026] ImpRIF: Stronger Implicit Reasoning Leads to Better Complex Instruction Following
- [NeurIPS 2025] Finite-Sample Analysis of Policy Evaluation for Robust Average Reward Reinforcement Learning
- [ICML 2025] On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning
- [ACL 2026] AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation