Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training¶

日期: 2026-03-07
arXiv: 2603.07223
代码: HuggingFace
领域: 模型压缩
关键词: knowledge distillation, financial LLM, data-centric AI, reinforcement learning, chain-of-thought

一句话总结¶

以数据为中心的金融 LLM 训练研究——通过多阶段蒸馏+验证构建 ODA-Fin-SFT-318k（高质量 CoT 数据）和 ODA-Fin-RL-12k（难但可验证的样本），在 Qwen3-8B 上训练的 ODA-Fin-RL-8B 在 9 个金融基准上达到 74.6% 均分，逼近 4 倍大的 Qwen3-32B（74.7%）。

研究背景与动机¶

领域现状: LLM 在金融场景中部署面临独特挑战——领域术语密集、数值推理要求高、容错率极低。当前金融 LLM 多采用"模型中心"范式（改架构/加参数），但效果有限。
现有痛点: (a) 开源金融数据质量参差不齐，80% 是简单 QA 缺乏推理链；(b) 直接用原始数据 SFT 会引入噪声和错误推理模式；(c) RL 阶段的数据选择缺乏系统方法论，过易数据强化捷径、过难数据导致验证噪声。
核心矛盾: 金融场景需要高精度推理，但现有训练数据的推理链质量和难度分布不匹配——SFT 需要"纯净+有推理"的数据，RL 需要"难但可验证"的数据。
切入角度: 不做架构创新，而是在标准 SFT+RL 流程上，系统验证"数据质量决定性能"的假设。
核心 idea: 两阶段数据层级——SFT 阶段要数据纯度和高质量推理轨迹，RL 阶段要筛选难且可验证的样本来突破 SFT 瓶颈。

方法详解¶

整体框架¶

25+ 开源金融数据集（697K 原始样本） → 语义去重 → CoT 蒸馏（Qwen3-235B 生成推理链） → 长度自适应验证 → ODA-Fin-SFT-318k → SFT 训练 → 在 SFT 模型上评估难度 → 筛选 hard-but-verifiable 样本 → ODA-Fin-RL-12k → GRPO 强化学习 → ODA-Fin-RL-8B。

关键设计¶

多阶段 CoT 蒸馏与验证:
- 做什么：将原始 QA 升级为带推理链的高质量训练数据
- 核心思路：用 Qwen3-235B-Thinking 为无 CoT 样本生成推理链；用长度自适应验证——短答案用 CompassVerifier-7B 精确判定，长答案用 Qwen3-235B-Instruct 评估逻辑一致性
- 设计动机：确保蒸馏出的推理链事实正确，防止模型学到错误推理模式
难度感知 RL 数据选择:
- 做什么：从 318K SFT 数据中筛选 12K 适合 RL 的样本
- 核心思路：用 SFT 模型对每个样本生成 4 次答案，保留失败率 >50% 的难样本；再限制最终答案长度 <16 tokens 以确保 verifier 可靠
- 设计动机：RL 需要在难题上探索——太简单的样本只会强化已有捷径，太长的答案 verifier 不可靠。筛选"难但可验证"达到最佳平衡
混合奖励机制:
- 做什么：RL 训练中的奖励信号设计
- 核心思路：\(R = R_{fmt} \times M_{outcome}\)，格式奖励（think 标签完整性）× 正确性奖励（verifier 判定）。错误答案仍给 0.5 倍部分奖励（只要格式正确）
- 设计动机：乘法设计确保格式和正确性同时优化；部分奖励防止早期训练阶段奖励过于稀疏

训练策略¶

SFT: Qwen3-8B 全参微调，16×A100，3 epoch，lr=1e-5，cosine schedule
RL: GRPO，4 rollouts/sample，温度 0.6，KL 系数 0.001

实验关键数据¶

主实验¶

模型	规模	General 均值	Sentiment 均值	Numerical 均值	9-bench AVG
ODA-Fin-RL-8B	8B	68.6	74.3	81.0	74.6
ODA-Fin-SFT-8B	8B	65.3	72.6	78.4	72.1
DianJin-R1-7B	7B	65.8	70.6	74.6	70.3
Qwen3-8B	8B	65.1	70.1	79.4	71.5
Qwen3-32B	32B	72.2	71.9	80.0	74.7

消融实验：SFT 数据组成¶

配置	AVG	说明
All 318K CoT (ODA-Fin-SFT)	72.1	完整 CoT 蒸馏数据最优
192K partial CoT	69.1	只有部分数据有 CoT
All 697K raw	66.1	原始数据反而伤害 Qwen3-8B
+General&Math 混合	67.6	加通用数据不如纯金融
+Table calculation	-	特定数据类型收益有限

关键发现¶

数据质量 >> 数据量: 318K 高质量 CoT 数据（72.1%）大幅优于 697K 原始数据（66.1%），说明在垂直领域精炼胜于蛮力
RL 的增量价值: SFT→RL 带来 +2.5% 均分提升，尤其在 Finova（+6.8pt）和 FinQA（+3.5pt）上效果显著
8B ≈ 32B: ODA-Fin-RL-8B（74.6%）逼近 Qwen3-32B（74.7%），验证了数据中心方法可以替代参数规模扩大
验证是关键: 未验证的蒸馏数据会引入幻觉，长度自适应验证是保证 CoT 质量的核心

亮点与洞察¶

数据中心方法论: 在标准流程上通过数据质量提升就能媲美 4 倍大模型，这对资源有限的垂直领域适配非常有实践意义
难度-可验证性权衡: RL 数据选择中同时考虑难度和 verifier 可靠性的思路很巧妙——可推广到其他需要 RL 微调的场景
长度自适应验证: 短答案用轻量 verifier、长答案用大模型 judge 的分层策略成本效率高

局限性 / 可改进方向¶

单基座依赖: 仅在 Qwen 系列上验证，泛化到 Llama 等其他架构还需验证
任务覆盖偏窄: 9 个基准以 QA 和分类为主，缺少金融报告生成、风险评估等更复杂任务
RL 数据量小: 仅 12K RL 样本，扩大 RL 数据规模是否有进一步收益未探索
英中双语不平衡: General 用中文、Numerical 用英文，跨语言能力分析不足

评分¶

新颖性: ⭐⭐⭐ 方法上无新颖架构，核心贡献在系统性数据工程实验
实验充分度: ⭐⭐⭐⭐⭐ 9 个基准、多个消融、多基座对比，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，数据呈现详尽
价值: ⭐⭐⭐⭐ 对金融 LLM 社区有直接实践指导意义，数据集开源加分