Interpreting Fedspeak with Confidence: A LLM-Based Uncertainty-Aware Framework Guided by Monetary Policy Transmission Paths¶
会议: AAAI2026
arXiv: 2508.08001
代码: yuuki20001/FOMC-sentiment-path
领域: llm_nlp
关键词: Fedspeak, monetary policy stance, LLM, uncertainty quantification, financial sentiment analysis
一句话总结¶
提出基于 LLM 的 uncertainty-aware 框架解读 Fedspeak(美联储语言):通过货币政策传导路径的领域推理增强输入,引入 dynamic uncertainty decoding 模块量化预测置信度(Perceptual Uncertainty = Environmental Ambiguity × Cognitive Risk),在 FOMC 政策立场分析任务上达到 SOTA。
研究背景与动机¶
Fedspeak 是美联储用于传达政策信号的特殊语言,具有高度语境依赖性——同一词在不同经济环境下可能指向相反立场(如 "strong" labor market 在弱经济中偏鸽派、过热经济中偏鹰派)。
现有方法的问题: - Dictionary-based 方法:简单可解释但无法理解复杂语境 - FinBERT 等微调模型:性能好但黑盒,缺乏透明性 - GPT-4 等大模型 zero-shot:能力强但忽略可靠性、偏差和幻觉问题 - 现有 LLM 工作多聚焦性能指标,忽略预测的可靠性评估
核心思路:将 LLM 类比为政策分析师,引入认知风险 (CR) 和环境模糊性 (EA) 两个不确定性维度来量化预测置信度。
方法详解¶
数据增强:领域推理¶
- Financial Entity Relations 提取:从 Fedspeak 中分解原子关系 \(r(e_i, e_j) \in \mathcal{R}\),涵盖 CAUSE、COND、EVID、PURP、ACT、COMP 六类
- 货币政策传导路径推理:构建四元组 \(\Gamma = (\mathbf{X}, \mathbf{Y}, \mathbf{Z}, \mathbf{M})\)
- \(\mathbf{X}\):经济冲击向量
- \(\mathbf{Y}\):传导渠道(信贷渠道、资产价格渠道、总需求渠道等)
- \(\mathbf{Z}\):传导路径(状态转移序列)
- \(\mathbf{M}\):最终政策建议
- 用结构化模板 + human-AI 协作构造 SFT 数据集
Dynamic Uncertainty Decoding¶
利用 LLM 输出的 top-\(k\) logits 构造 Dirichlet 分布,定义三个不确定性度量:
-
Environmental Ambiguity (EA):预测分布的期望熵 $\(EA(a_t) = -\sum_{k=1}^{K} \frac{\alpha_k}{\alpha_0}(\psi(\alpha_k+1) - \psi(\alpha_0+1))\)$
-
Cognitive Risk (CR):与总证据量成反比 $\(CR(a_t) = \frac{K}{\sum_{k=1}^{K}(\alpha_k + 1)}\)$
-
Perceptual Uncertainty (PU):\(PU = EA \times CR\)
解码策略根据 PU 阈值动态切换: - 低 PU → aggressive(直接选 top-1 token) - 高 PU → conservative(从 top-2 中采样)
实验关键数据¶
实验设置¶
- 数据集:Trillion Dollar Words FOMC dataset(1996–2022),含会议纪要、新闻发布会、演讲三类
- 基线:10+ 模型,包括 GPT-4.1、Gemini-2.5-Pro、DeepSeek-R1、Phi-4、FinBERT、AICBC 等
- 基座:Qwen3-14B + LoRA 微调
主要结果 (All Categories)¶
| 方法 | Macro F1 | Weighted F1 |
|---|---|---|
| GPT-4.1 (zero-shot) | 0.6662 | 0.6763 |
| AICBC (zero-shot) | 0.6637 | 0.6802 |
| Qwen3-8B (fine-tuned) | 0.6586 | 0.6745 |
| Ours | 0.7327 | 0.7426 |
- 较最强基线 Macro F1 提升 +6.6%,Weighted F1 提升 +6.2%
- 会议纪要上表现最突出:Macro F1 = 0.7449(+7.4%)
- 演讲类:Macro F1 = 0.7291(+6.7%)
消融实验¶
| 配置 | Macro F1 | Weighted F1 |
|---|---|---|
| Full model | 0.7327 | 0.7426 |
| w/o PU | 0.7291 | 0.7378 |
| w/o Transmission Path | 0.6538 | 0.6699 |
| w/o Entity Relations | 0.6397 | 0.6551 |
传导路径贡献最大(去除后 -7.9%),实体关系次之,PU 模块贡献相对温和但有效。
Uncertainty 验证¶
- 低 PU 预测:Macro F1 = 0.7791,高 PU 预测:Macro F1 = 0.2473
- T-test / Mann-Whitney U test / Logistic regression 的 p-value 均远低于 0.001,统计显著性强
亮点¶
- 领域推理创新:首次将货币政策传导机制形式化为结构化推理模板,模拟人类专家分析流程
- PU 度量实用:EA × CR 的分解符合经济学中 risk / ambiguity 的经典划分,在金融场景中直觉自然
- 高 PU 预警机制:可识别不可靠预测,支持 human-in-the-loop 决策
- 全面超越 GPT-4.1:在会议纪要和演讲上大幅领先闭源大模型
局限与展望¶
- 新闻发布会表现弱于 GPT-4.1(-1.3%),实时问答的动态上下文依赖捕捉不足
- 依赖手工模板构建传导路径,自动化程度有限
- 仅在 FOMC 英文数据上验证,未扩展到 ECB/BoE 等其他央行或多语言场景
- PU 阈值需在验证集上搜索,不同数据集需重新调参
- 未探索 "拒绝回答" 策略在实际部署中的效果
评分¶
- 新颖性: ⭐⭐⭐⭐ — 货币政策传导路径推理和 PU 度量的结合有明确方法论贡献
- 实验充分度: ⭐⭐⭐⭐ — 10+ 基线、三类文本、消融 + 统计检验,覆盖全面
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,经济学与 NLP 概念衔接流畅
- 价值: ⭐⭐⭐⭐ — 对金融 NLP 可靠性研究有实际推动作用
相关论文¶
- [ICLR 2026] HiVid: LLM-Guided Video Saliency For Content-Aware VOD And Live Streaming
- [ICML 2025] Event-Aware Sentiment Factors from LLM-Augmented Financial Tweets: A Transparent Framework for Interpretable Quant Trading
- [ICLR 2026] SCRAPL: Scattering Transform with Random Paths for Machine Learning
- [AAAI 2026] CometNet: Contextual Motif-guided Long-term Time Series Forecasting
- [AAAI 2026] iTimER: Reconstruction Error-Guided Irregularly Sampled Time Series Representation Learning