Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training¶
日期: 2026-03-07
arXiv: 2603.07223
代码: HuggingFace
领域: 模型压缩
关键词: knowledge distillation, financial LLM, data-centric AI, reinforcement learning, chain-of-thought
一句话总结¶
以数据为中心的金融 LLM 训练研究——通过多阶段蒸馏+验证构建 ODA-Fin-SFT-318k(高质量 CoT 数据)和 ODA-Fin-RL-12k(难但可验证的样本),在 Qwen3-8B 上训练的 ODA-Fin-RL-8B 在 9 个金融基准上达到 74.6% 均分,逼近 4 倍大的 Qwen3-32B(74.7%)。
研究背景与动机¶
-
领域现状: LLM 在金融场景中部署面临独特挑战——领域术语密集、数值推理要求高、容错率极低。当前金融 LLM 多采用"模型中心"范式(改架构/加参数),但效果有限。
-
现有痛点: (a) 开源金融数据质量参差不齐,80% 是简单 QA 缺乏推理链;(b) 直接用原始数据 SFT 会引入噪声和错误推理模式;(c) RL 阶段的数据选择缺乏系统方法论,过易数据强化捷径、过难数据导致验证噪声。
-
核心矛盾: 金融场景需要高精度推理,但现有训练数据的推理链质量和难度分布不匹配——SFT 需要"纯净+有推理"的数据,RL 需要"难但可验证"的数据。
-
切入角度: 不做架构创新,而是在标准 SFT+RL 流程上,系统验证"数据质量决定性能"的假设。
-
核心 idea: 两阶段数据层级——SFT 阶段要数据纯度和高质量推理轨迹,RL 阶段要筛选难且可验证的样本来突破 SFT 瓶颈。
方法详解¶
整体框架¶
25+ 开源金融数据集(697K 原始样本) → 语义去重 → CoT 蒸馏(Qwen3-235B 生成推理链) → 长度自适应验证 → ODA-Fin-SFT-318k → SFT 训练 → 在 SFT 模型上评估难度 → 筛选 hard-but-verifiable 样本 → ODA-Fin-RL-12k → GRPO 强化学习 → ODA-Fin-RL-8B。
关键设计¶
-
多阶段 CoT 蒸馏与验证:
- 做什么:将原始 QA 升级为带推理链的高质量训练数据
- 核心思路:用 Qwen3-235B-Thinking 为无 CoT 样本生成推理链;用长度自适应验证——短答案用 CompassVerifier-7B 精确判定,长答案用 Qwen3-235B-Instruct 评估逻辑一致性
- 设计动机:确保蒸馏出的推理链事实正确,防止模型学到错误推理模式
-
难度感知 RL 数据选择:
- 做什么:从 318K SFT 数据中筛选 12K 适合 RL 的样本
- 核心思路:用 SFT 模型对每个样本生成 4 次答案,保留失败率 >50% 的难样本;再限制最终答案长度 <16 tokens 以确保 verifier 可靠
- 设计动机:RL 需要在难题上探索——太简单的样本只会强化已有捷径,太长的答案 verifier 不可靠。筛选"难但可验证"达到最佳平衡
-
混合奖励机制:
- 做什么:RL 训练中的奖励信号设计
- 核心思路:\(R = R_{fmt} \times M_{outcome}\),格式奖励(think 标签完整性)× 正确性奖励(verifier 判定)。错误答案仍给 0.5 倍部分奖励(只要格式正确)
- 设计动机:乘法设计确保格式和正确性同时优化;部分奖励防止早期训练阶段奖励过于稀疏
训练策略¶
- SFT: Qwen3-8B 全参微调,16×A100,3 epoch,lr=1e-5,cosine schedule
- RL: GRPO,4 rollouts/sample,温度 0.6,KL 系数 0.001
实验关键数据¶
主实验¶
| 模型 | 规模 | General 均值 | Sentiment 均值 | Numerical 均值 | 9-bench AVG |
|---|---|---|---|---|---|
| ODA-Fin-RL-8B | 8B | 68.6 | 74.3 | 81.0 | 74.6 |
| ODA-Fin-SFT-8B | 8B | 65.3 | 72.6 | 78.4 | 72.1 |
| DianJin-R1-7B | 7B | 65.8 | 70.6 | 74.6 | 70.3 |
| Qwen3-8B | 8B | 65.1 | 70.1 | 79.4 | 71.5 |
| Qwen3-32B | 32B | 72.2 | 71.9 | 80.0 | 74.7 |
消融实验:SFT 数据组成¶
| 配置 | AVG | 说明 |
|---|---|---|
| All 318K CoT (ODA-Fin-SFT) | 72.1 | 完整 CoT 蒸馏数据最优 |
| 192K partial CoT | 69.1 | 只有部分数据有 CoT |
| All 697K raw | 66.1 | 原始数据反而伤害 Qwen3-8B |
| +General&Math 混合 | 67.6 | 加通用数据不如纯金融 |
| +Table calculation | - | 特定数据类型收益有限 |
关键发现¶
- 数据质量 >> 数据量: 318K 高质量 CoT 数据(72.1%)大幅优于 697K 原始数据(66.1%),说明在垂直领域精炼胜于蛮力
- RL 的增量价值: SFT→RL 带来 +2.5% 均分提升,尤其在 Finova(+6.8pt)和 FinQA(+3.5pt)上效果显著
- 8B ≈ 32B: ODA-Fin-RL-8B(74.6%)逼近 Qwen3-32B(74.7%),验证了数据中心方法可以替代参数规模扩大
- 验证是关键: 未验证的蒸馏数据会引入幻觉,长度自适应验证是保证 CoT 质量的核心
亮点与洞察¶
- 数据中心方法论: 在标准流程上通过数据质量提升就能媲美 4 倍大模型,这对资源有限的垂直领域适配非常有实践意义
- 难度-可验证性权衡: RL 数据选择中同时考虑难度和 verifier 可靠性的思路很巧妙——可推广到其他需要 RL 微调的场景
- 长度自适应验证: 短答案用轻量 verifier、长答案用大模型 judge 的分层策略成本效率高
局限性 / 可改进方向¶
- 单基座依赖: 仅在 Qwen 系列上验证,泛化到 Llama 等其他架构还需验证
- 任务覆盖偏窄: 9 个基准以 QA 和分类为主,缺少金融报告生成、风险评估等更复杂任务
- RL 数据量小: 仅 12K RL 样本,扩大 RL 数据规模是否有进一步收益未探索
- 英中双语不平衡: General 用中文、Numerical 用英文,跨语言能力分析不足
相关工作与启发¶
- vs DianJin-R1: 同为两阶段(SFT+RL)金融模型,但 DianJin 自带高质量 CoT 数据而非蒸馏产生;ODA-Fin 的蒸馏+验证流程更系统化
- vs BloombergGPT: 早期"模型中心"路线(从头预训练),本文证明后训练阶段数据工程同样甚至更有效
- 启发: 数据中心方法论可迁移至医疗、法律等其他高精度垂直领域
评分¶
- 新颖性: ⭐⭐⭐ 方法上无新颖架构,核心贡献在系统性数据工程实验
- 实验充分度: ⭐⭐⭐⭐⭐ 9 个基准、多个消融、多基座对比,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据呈现详尽
- 价值: ⭐⭐⭐⭐ 对金融 LLM 社区有直接实践指导意义,数据集开源加分