Financial Instruction Following Evaluation (FIFE)¶

会议: NeurIPS 2025 (GenAI Finance Workshop)
arXiv: 2512.08965
代码: https://github.com/gtfintechlab/FIFE
领域: NLP理解 / LLM评估
关键词: 指令遵循, 金融领域, 基准测试, 可链式约束, LLM评测

一句话总结¶

FIFE 是一个面向金融分析任务的高难度指令遵循基准，包含 88 个人工编写的复杂提示和 40+ 种金融领域专用的可链式验证约束，通过严格/宽松两种模式评测 53 个模型，揭示出即使最强的开放权重模型（76.1% strict）也无法完美遵循金融领域的复杂指令要求。

研究背景与动机¶

领域现状：语言模型在通用指令遵循上已相当成熟，IFEval 等基准被广泛使用来评估模型的指令遵循能力。然而，金融领域对精确性要求极高——错误的数字格式、遗漏的风险警告、不规范的合规声明都可能带来严重后果。

现有痛点：现有指令遵循基准（如 IFEval）主要针对通用任务，缺乏金融领域的专门约束。金融分析涉及大量领域特定的复杂要求：如 Black-76 期权定价的 LaTeX 公式、VaR 计算的特定数字格式、10b-5 合规规则的特定编号格式等。这些约束之间往往相互依赖，构成链式约束——当前无基准能系统性评测模型在此类复杂约束下的表现。

核心矛盾：金融领域对指令遵循的要求远高于通用场景，但评测工具的能力远低于需求。通用基准无法捕捉金融特有的约束类型，导致对模型在金融场景中真实能力的评估失真。

本文目标 构建一个高难度的金融指令遵循基准，具备：(1) 涵盖多个金融子领域的专用约束；(2) 可链式组合的自动化验证系统；(3) 提供细粒度的奖励信号以支持 RL 训练。

切入角度：基于 IFEval 框架进行金融领域的深度定制——设计 40+ 种金融专用的指令检查器（instruction checkers），覆盖从股票分析到衍生品定价、从合规报告到 ESG 评估的广泛场景。每个检查器可独立验证，也可链式组合形成复杂的多约束提示。

核心 idea：用 40+ 种可链式验证的金融专用指令约束构建高难度基准，为金融领域的 RL 训练提供精确的奖励信号。

方法详解¶

整体框架¶

FIFE 的流水线：(1) 88 个人工编写的提示，每个包含 1-5 个金融领域约束；(2) 模型生成回复；(3) 自动化验证系统逐约束检查，输出 prompt 级和 instruction 级的准确率；(4) 支持 strict（精确匹配）和 loose（容忍轻微格式偏差）两种评估模式。

关键设计¶

金融领域专用指令检查器体系:
- 功能：覆盖 10+ 个金融子领域的 40+ 种约束类型
- 核心思路：每种检查器继承自 InstructionChecker 基类，实现 build_description（生成约束描述）和 check_following（验证是否遵循）两个方法。覆盖领域包括：权益分析（加粗开头+斜体风险）、信用利差分析（表格格式）、外汇计算（代码块限制）、合规报告（编号格式）、衍生品定价（Black-76 LaTeX）、VaR 计算（加粗美元符号）、ESG 报告、私募股权等
- 设计动机：通用指令检查器（如"限制字数"、"使用编号列表"）无法捕捉金融领域的专业约束，需要领域专家设计特定的验证逻辑
可链式约束组合系统:
- 功能：将多个简单约束组合为复杂的多约束提示，提供细粒度奖励信号
- 核心思路：每个提示包含一组约束 ID 列表（instruction_id_list），验证时逐个检查。一个提示可能同时要求"用加粗标题描述风险"+"用表格展示利差分析"+"包含合规免责声明"。每个约束独立产生二值反馈，构成向量化奖励
- 设计动机：链式约束使难度可控（1 个约束 vs 5 个约束），且向量化奖励比简单的 pass/fail 为 RL 训练提供更丰富的梯度信息
双模式评估（Strict / Loose）:
- 功能：区分格式精确度和内容正确性
- 核心思路：Strict 模式精确匹配，不容忍格式偏差；Loose 模式测试多种回复变体——移除 markdown 标记、裁剪版本等。两种模式的差距反映模型在"理解约束"vs"精确执行格式"上的能力差异
- 设计动机：模型可能理解了约束意图但格式细节（如多了一个空行）导致 strict 判定失败，loose 模式帮助区分这两种能力

损失函数 / 训练策略¶

FIFE 本身是评测基准而非训练方法。零样本评测所有模型，不做 few-shot 或微调。约束验证结果可作为 RL 的外部奖励信号。

实验关键数据¶

主实验¶

模型类别	最佳模型	Strict 准确率	Loose 准确率
开放权重	(Top open-weight)	76.1%	79.5%
专有模型	(Top proprietary)	65.9%	70.5%
开源模型	(Top open-source)	45.5%	48.9%

消融实验¶

评估细节	指标类型	典型结果
Prompt 级准确率	所有约束全部满足的比例	随约束数增加急剧下降
Instruction 级准确率	单个约束满足的比例	高于 prompt 级 2-9 个百分点
Strict vs Loose 差距	格式精确度	3-5 个百分点的差距

关键发现¶

开放权重 > 专有模型：这一结果打破了"专有模型更强"的刻板印象，在金融领域特定约束上开放权重模型展现出更强的指令遵循能力
即使最强模型也无法完美遵循：76.1% 的 strict 准确率说明金融领域的复杂链式约束对当前所有 LLM 都构成实质挑战
开源模型大幅落后（45.5%），与开放权重和专有模型的差距约 20-30 个百分点
Strict 和 Loose 之间的差距（3-5%）表明一部分失败来自格式细节而非对约束的理解

亮点与洞察¶

细粒度奖励信号的设计很有远见。每个约束独立验证产生的向量化反馈比简单的 binary pass/fail 更适合 RL 训练——这使 FIFE 不仅是评测工具，更是 RL for finance 的基础设施
金融约束的领域特异性设计得很实际。如 fin:deriv:black76_latex_sigma 要求用 LaTeX 写出 Black-76 定价公式——这类约束无法从通用基准中获得，体现了金融领域评测的不可替代性
该方法论可迁移到其他高风险领域（医疗、法律）——设计领域专用的可链式约束检查器即可

局限与展望¶

88 个提示的规模较小，可能不足以覆盖金融领域的全部约束类型和难度分布
仅评测零样本能力，未探索 few-shot、CoT 或微调后的表现差异
验证系统基于规则匹配，可能存在假阳性/假阴性——如模型用等价但不同格式的 LaTeX 公式
未具体报告哪些约束类型最难遵循，缺少细粒度的错误分析
论文中模型名称有些模糊（"top open-weight model"），未完全明确具体是哪个模型
作为 Workshop 论文，实验规模和深度有限

评分¶

新颖性: ⭐⭐⭐ 框架基于 IFEval 的延伸，核心创新在金融约束设计而非方法论
实验充分度: ⭐⭐⭐ 53 个模型的评测规模不错，但分析深度有限
写作质量: ⭐⭐⭐ Workshop 论文的标准写作，简洁但细节不够
价值: ⭐⭐⭐⭐ 填补了金融领域指令遵循评测的空白，对 RL for finance 有实际意义