跳转至

Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

日期: 2026-03-07
arXiv: 2603.07223
代码: HuggingFace
领域: 模型压缩
关键词: knowledge distillation, financial LLM, data-centric AI, reinforcement learning, chain-of-thought

一句话总结

以数据为中心的金融 LLM 训练研究——通过多阶段蒸馏+验证构建 ODA-Fin-SFT-318k(高质量 CoT 数据)和 ODA-Fin-RL-12k(难但可验证的样本),在 Qwen3-8B 上训练的 ODA-Fin-RL-8B 在 9 个金融基准上达到 74.6% 均分,逼近 4 倍大的 Qwen3-32B(74.7%)。

研究背景与动机

  1. 领域现状: LLM 在金融场景中部署面临独特挑战——领域术语密集、数值推理要求高、容错率极低。当前金融 LLM 多采用"模型中心"范式(改架构/加参数),但效果有限。

  2. 现有痛点: (a) 开源金融数据质量参差不齐,80% 是简单 QA 缺乏推理链;(b) 直接用原始数据 SFT 会引入噪声和错误推理模式;(c) RL 阶段的数据选择缺乏系统方法论,过易数据强化捷径、过难数据导致验证噪声。

  3. 核心矛盾: 金融场景需要高精度推理,但现有训练数据的推理链质量和难度分布不匹配——SFT 需要"纯净+有推理"的数据,RL 需要"难但可验证"的数据。

  4. 切入角度: 不做架构创新,而是在标准 SFT+RL 流程上,系统验证"数据质量决定性能"的假设。

  5. 核心 idea: 两阶段数据层级——SFT 阶段要数据纯度和高质量推理轨迹,RL 阶段要筛选难且可验证的样本来突破 SFT 瓶颈。

方法详解

整体框架

25+ 开源金融数据集(697K 原始样本) → 语义去重 → CoT 蒸馏(Qwen3-235B 生成推理链) → 长度自适应验证 → ODA-Fin-SFT-318k → SFT 训练 → 在 SFT 模型上评估难度 → 筛选 hard-but-verifiable 样本 → ODA-Fin-RL-12k → GRPO 强化学习 → ODA-Fin-RL-8B。

关键设计

  1. 多阶段 CoT 蒸馏与验证:

    • 做什么:将原始 QA 升级为带推理链的高质量训练数据
    • 核心思路:用 Qwen3-235B-Thinking 为无 CoT 样本生成推理链;用长度自适应验证——短答案用 CompassVerifier-7B 精确判定,长答案用 Qwen3-235B-Instruct 评估逻辑一致性
    • 设计动机:确保蒸馏出的推理链事实正确,防止模型学到错误推理模式
  2. 难度感知 RL 数据选择:

    • 做什么:从 318K SFT 数据中筛选 12K 适合 RL 的样本
    • 核心思路:用 SFT 模型对每个样本生成 4 次答案,保留失败率 >50% 的难样本;再限制最终答案长度 <16 tokens 以确保 verifier 可靠
    • 设计动机:RL 需要在难题上探索——太简单的样本只会强化已有捷径,太长的答案 verifier 不可靠。筛选"难但可验证"达到最佳平衡
  3. 混合奖励机制:

    • 做什么:RL 训练中的奖励信号设计
    • 核心思路:\(R = R_{fmt} \times M_{outcome}\),格式奖励(think 标签完整性)× 正确性奖励(verifier 判定)。错误答案仍给 0.5 倍部分奖励(只要格式正确)
    • 设计动机:乘法设计确保格式和正确性同时优化;部分奖励防止早期训练阶段奖励过于稀疏

训练策略

  • SFT: Qwen3-8B 全参微调,16×A100,3 epoch,lr=1e-5,cosine schedule
  • RL: GRPO,4 rollouts/sample,温度 0.6,KL 系数 0.001

实验关键数据

主实验

模型 规模 General 均值 Sentiment 均值 Numerical 均值 9-bench AVG
ODA-Fin-RL-8B 8B 68.6 74.3 81.0 74.6
ODA-Fin-SFT-8B 8B 65.3 72.6 78.4 72.1
DianJin-R1-7B 7B 65.8 70.6 74.6 70.3
Qwen3-8B 8B 65.1 70.1 79.4 71.5
Qwen3-32B 32B 72.2 71.9 80.0 74.7

消融实验:SFT 数据组成

配置 AVG 说明
All 318K CoT (ODA-Fin-SFT) 72.1 完整 CoT 蒸馏数据最优
192K partial CoT 69.1 只有部分数据有 CoT
All 697K raw 66.1 原始数据反而伤害 Qwen3-8B
+General&Math 混合 67.6 加通用数据不如纯金融
+Table calculation - 特定数据类型收益有限

关键发现

  • 数据质量 >> 数据量: 318K 高质量 CoT 数据(72.1%)大幅优于 697K 原始数据(66.1%),说明在垂直领域精炼胜于蛮力
  • RL 的增量价值: SFT→RL 带来 +2.5% 均分提升,尤其在 Finova(+6.8pt)和 FinQA(+3.5pt)上效果显著
  • 8B ≈ 32B: ODA-Fin-RL-8B(74.6%)逼近 Qwen3-32B(74.7%),验证了数据中心方法可以替代参数规模扩大
  • 验证是关键: 未验证的蒸馏数据会引入幻觉,长度自适应验证是保证 CoT 质量的核心

亮点与洞察

  • 数据中心方法论: 在标准流程上通过数据质量提升就能媲美 4 倍大模型,这对资源有限的垂直领域适配非常有实践意义
  • 难度-可验证性权衡: RL 数据选择中同时考虑难度和 verifier 可靠性的思路很巧妙——可推广到其他需要 RL 微调的场景
  • 长度自适应验证: 短答案用轻量 verifier、长答案用大模型 judge 的分层策略成本效率高

局限性 / 可改进方向

  • 单基座依赖: 仅在 Qwen 系列上验证,泛化到 Llama 等其他架构还需验证
  • 任务覆盖偏窄: 9 个基准以 QA 和分类为主,缺少金融报告生成、风险评估等更复杂任务
  • RL 数据量小: 仅 12K RL 样本,扩大 RL 数据规模是否有进一步收益未探索
  • 英中双语不平衡: General 用中文、Numerical 用英文,跨语言能力分析不足

相关工作与启发

  • vs DianJin-R1: 同为两阶段(SFT+RL)金融模型,但 DianJin 自带高质量 CoT 数据而非蒸馏产生;ODA-Fin 的蒸馏+验证流程更系统化
  • vs BloombergGPT: 早期"模型中心"路线(从头预训练),本文证明后训练阶段数据工程同样甚至更有效
  • 启发: 数据中心方法论可迁移至医疗、法律等其他高精度垂直领域

评分

  • 新颖性: ⭐⭐⭐ 方法上无新颖架构,核心贡献在系统性数据工程实验
  • 实验充分度: ⭐⭐⭐⭐⭐ 9 个基准、多个消融、多基座对比,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据呈现详尽
  • 价值: ⭐⭐⭐⭐ 对金融 LLM 社区有直接实践指导意义,数据集开源加分