跳转至

Financial Instruction Following Evaluation (FIFE)

会议: NeurIPS 2025 (GenAI Finance Workshop)
arXiv: 2512.08965
代码: https://github.com/gtfintechlab/FIFE
领域: NLP理解 / LLM评估
关键词: 指令遵循, 金融领域, 基准测试, 可链式约束, LLM评测

一句话总结

FIFE 是一个面向金融分析任务的高难度指令遵循基准,包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束,通过严格/宽松两种模式评测 53 个模型,揭示出即使最强的开放权重模型(76.1% strict)也无法完美遵循金融领域的复杂指令要求。

研究背景与动机

领域现状:语言模型在通用指令遵循上已相当成熟,IFEval 等基准被广泛使用来评估模型的指令遵循能力。然而,金融领域对精确性要求极高——错误的数字格式、遗漏的风险警告、不规范的合规声明都可能带来严重后果。

现有痛点:现有指令遵循基准(如 IFEval)主要针对通用任务,缺乏金融领域的专门约束。金融分析涉及大量领域特定的复杂要求:如 Black-76 期权定价的 LaTeX 公式、VaR 计算的特定数字格式、10b-5 合规规则的特定编号格式等。这些约束之间往往相互依赖,构成链式约束——当前无基准能系统性评测模型在此类复杂约束下的表现。

核心矛盾:金融领域对指令遵循的要求远高于通用场景,但评测工具的能力远低于需求。通用基准无法捕捉金融特有的约束类型,导致对模型在金融场景中真实能力的评估失真。

本文目标 构建一个高难度的金融指令遵循基准,具备:(1) 涵盖多个金融子领域的专用约束;(2) 可链式组合的自动化验证系统;(3) 提供细粒度的奖励信号以支持 RL 训练。

切入角度:基于 IFEval 框架进行金融领域的深度定制——设计 40+ 种金融专用的指令检查器(instruction checkers),覆盖从股票分析到衍生品定价、从合规报告到 ESG 评估的广泛场景。每个检查器可独立验证,也可链式组合形成复杂的多约束提示。

核心 idea:用 40+ 种可链式验证的金融专用指令约束构建高难度基准,为金融领域的 RL 训练提供精确的奖励信号。

方法详解

整体框架

FIFE 的流水线:(1) 88 个人工编写的提示,每个包含 1-5 个金融领域约束;(2) 模型生成回复;(3) 自动化验证系统逐约束检查,输出 prompt 级和 instruction 级的准确率;(4) 支持 strict(精确匹配)和 loose(容忍轻微格式偏差)两种评估模式。

关键设计

  1. 金融领域专用指令检查器体系:

    • 功能:覆盖 10+ 个金融子领域的 40+ 种约束类型
    • 核心思路:每种检查器继承自 InstructionChecker 基类,实现 build_description(生成约束描述)和 check_following(验证是否遵循)两个方法。覆盖领域包括:权益分析(加粗开头+斜体风险)、信用利差分析(表格格式)、外汇计算(代码块限制)、合规报告(编号格式)、衍生品定价(Black-76 LaTeX)、VaR 计算(加粗美元符号)、ESG 报告、私募股权等
    • 设计动机:通用指令检查器(如"限制字数"、"使用编号列表")无法捕捉金融领域的专业约束,需要领域专家设计特定的验证逻辑
  2. 可链式约束组合系统:

    • 功能:将多个简单约束组合为复杂的多约束提示,提供细粒度奖励信号
    • 核心思路:每个提示包含一组约束 ID 列表(instruction_id_list),验证时逐个检查。一个提示可能同时要求"用加粗标题描述风险"+"用表格展示利差分析"+"包含合规免责声明"。每个约束独立产生二值反馈,构成向量化奖励
    • 设计动机:链式约束使难度可控(1 个约束 vs 5 个约束),且向量化奖励比简单的 pass/fail 为 RL 训练提供更丰富的梯度信息
  3. 双模式评估(Strict / Loose):

    • 功能:区分格式精确度和内容正确性
    • 核心思路:Strict 模式精确匹配,不容忍格式偏差;Loose 模式测试多种回复变体——移除 markdown 标记、裁剪版本等。两种模式的差距反映模型在"理解约束"vs"精确执行格式"上的能力差异
    • 设计动机:模型可能理解了约束意图但格式细节(如多了一个空行)导致 strict 判定失败,loose 模式帮助区分这两种能力

损失函数 / 训练策略

FIFE 本身是评测基准而非训练方法。零样本评测所有模型,不做 few-shot 或微调。约束验证结果可作为 RL 的外部奖励信号。

实验关键数据

主实验

模型类别 最佳模型 Strict 准确率 Loose 准确率
开放权重 (Top open-weight) 76.1% 79.5%
专有模型 (Top proprietary) 65.9% 70.5%
开源模型 (Top open-source) 45.5% 48.9%

消融实验

评估细节 指标类型 典型结果
Prompt 级准确率 所有约束全部满足的比例 随约束数增加急剧下降
Instruction 级准确率 单个约束满足的比例 高于 prompt 级 2-9 个百分点
Strict vs Loose 差距 格式精确度 3-5 个百分点的差距

关键发现

  • 开放权重 > 专有模型:这一结果打破了"专有模型更强"的刻板印象,在金融领域特定约束上开放权重模型展现出更强的指令遵循能力
  • 即使最强模型也无法完美遵循:76.1% 的 strict 准确率说明金融领域的复杂链式约束对当前所有 LLM 都构成实质挑战
  • 开源模型大幅落后(45.5%),与开放权重和专有模型的差距约 20-30 个百分点
  • Strict 和 Loose 之间的差距(3-5%)表明一部分失败来自格式细节而非对约束的理解

亮点与洞察

  • 细粒度奖励信号的设计很有远见。每个约束独立验证产生的向量化反馈比简单的 binary pass/fail 更适合 RL 训练——这使 FIFE 不仅是评测工具,更是 RL for finance 的基础设施
  • 金融约束的领域特异性设计得很实际。如 fin:deriv:black76_latex_sigma 要求用 LaTeX 写出 Black-76 定价公式——这类约束无法从通用基准中获得,体现了金融领域评测的不可替代性
  • 该方法论可迁移到其他高风险领域(医疗、法律)——设计领域专用的可链式约束检查器即可

局限与展望

  • 88 个提示的规模较小,可能不足以覆盖金融领域的全部约束类型和难度分布
  • 仅评测零样本能力,未探索 few-shot、CoT 或微调后的表现差异
  • 验证系统基于规则匹配,可能存在假阳性/假阴性——如模型用等价但不同格式的 LaTeX 公式
  • 未具体报告哪些约束类型最难遵循,缺少细粒度的错误分析
  • 论文中模型名称有些模糊("top open-weight model"),未完全明确具体是哪个模型
  • 作为 Workshop 论文,实验规模和深度有限

相关工作与启发

  • vs IFEval (Google): FIFE 基于 IFEval 的框架和评估逻辑(evaluation_lib.py 适配自 IFEval),但将通用约束替换为 40+ 种金融专用约束,难度大幅提升
  • vs FinBen / FinGPT: 现有金融 NLP 基准侧重知识问答、情感分析等任务,而 FIFE 专注于指令遵循这一正交维度——模型可能"知道"金融知识但无法按要求的格式输出
  • 对于构建金融领域 RLHF 数据集有直接启发——FIFE 的约束检查器可直接作为奖励模型的规则部分

评分

  • 新颖性: ⭐⭐⭐ 框架基于 IFEval 的延伸,核心创新在金融约束设计而非方法论
  • 实验充分度: ⭐⭐⭐ 53 个模型的评测规模不错,但分析深度有限
  • 写作质量: ⭐⭐⭐ Workshop 论文的标准写作,简洁但细节不够
  • 价值: ⭐⭐⭐⭐ 填补了金融领域指令遵循评测的空白,对 RL for finance 有实际意义

相关论文