Interpreting Fedspeak with Confidence: A LLM-Based Uncertainty-Aware Framework Guided by Monetary Policy Transmission Paths¶

会议: AAAI2026
arXiv: 2508.08001
代码: yuuki20001/FOMC-sentiment-path
领域: llm_nlp
关键词: Fedspeak, monetary policy stance, LLM, uncertainty quantification, financial sentiment analysis

一句话总结¶

提出基于 LLM 的 uncertainty-aware 框架解读 Fedspeak（美联储语言）：通过货币政策传导路径的领域推理增强输入，引入 dynamic uncertainty decoding 模块量化预测置信度（Perceptual Uncertainty = Environmental Ambiguity × Cognitive Risk），在 FOMC 政策立场分析任务上达到 SOTA。

研究背景与动机¶

Fedspeak 是美联储用于传达政策信号的特殊语言，具有高度语境依赖性——同一词在不同经济环境下可能指向相反立场（如 "strong" labor market 在弱经济中偏鸽派、过热经济中偏鹰派）。

现有方法的问题： - Dictionary-based 方法：简单可解释但无法理解复杂语境 - FinBERT 等微调模型：性能好但黑盒，缺乏透明性 - GPT-4 等大模型 zero-shot：能力强但忽略可靠性、偏差和幻觉问题 - 现有 LLM 工作多聚焦性能指标，忽略预测的可靠性评估

核心思路：将 LLM 类比为政策分析师，引入认知风险 (CR) 和环境模糊性 (EA) 两个不确定性维度来量化预测置信度。

方法详解¶

数据增强：领域推理¶

Financial Entity Relations 提取：从 Fedspeak 中分解原子关系 $r(e_i, e_j) \in \mathcal{R}$，涵盖 CAUSE、COND、EVID、PURP、ACT、COMP 六类
货币政策传导路径推理：构建四元组 $\Gamma = (\mathbf{X}, \mathbf{Y}, \mathbf{Z}, \mathbf{M})$
- $\mathbf{X}$：经济冲击向量
- $\mathbf{Y}$：传导渠道（信贷渠道、资产价格渠道、总需求渠道等）
- $\mathbf{Z}$：传导路径（状态转移序列）
- $\mathbf{M}$：最终政策建议
用结构化模板 + human-AI 协作构造 SFT 数据集

Dynamic Uncertainty Decoding¶

利用 LLM 输出的 top-$k$ logits 构造 Dirichlet 分布，定义三个不确定性度量：

Environmental Ambiguity (EA)：预测分布的期望熵 $$EA(a_t) = -\sum_{k=1}^{K} \frac{\alpha_k}{\alpha_0}(\psi(\alpha_k+1) - \psi(\alpha_0+1))$$
Cognitive Risk (CR)：与总证据量成反比 $$CR(a_t) = \frac{K}{\sum_{k=1}^{K}(\alpha_k + 1)}$$
Perceptual Uncertainty (PU)：$PU = EA \times CR$

解码策略根据 PU 阈值动态切换： - 低 PU → aggressive（直接选 top-1 token） - 高 PU → conservative（从 top-2 中采样）

实验关键数据¶

实验设置¶

数据集：Trillion Dollar Words FOMC dataset（1996–2022），含会议纪要、新闻发布会、演讲三类
基线：10+ 模型，包括 GPT-4.1、Gemini-2.5-Pro、DeepSeek-R1、Phi-4、FinBERT、AICBC 等
基座：Qwen3-14B + LoRA 微调

主要结果 (All Categories)¶

方法	Macro F1	Weighted F1
GPT-4.1 (zero-shot)	0.6662	0.6763
AICBC (zero-shot)	0.6637	0.6802
Qwen3-8B (fine-tuned)	0.6586	0.6745
Ours	0.7327	0.7426

较最强基线 Macro F1 提升 +6.6%，Weighted F1 提升 +6.2%
会议纪要上表现最突出：Macro F1 = 0.7449（+7.4%）
演讲类：Macro F1 = 0.7291（+6.7%）

消融实验¶

配置	Macro F1	Weighted F1
Full model	0.7327	0.7426
w/o PU	0.7291	0.7378
w/o Transmission Path	0.6538	0.6699
w/o Entity Relations	0.6397	0.6551

传导路径贡献最大（去除后 -7.9%），实体关系次之，PU 模块贡献相对温和但有效。

Uncertainty 验证¶

低 PU 预测：Macro F1 = 0.7791，高 PU 预测：Macro F1 = 0.2473
T-test / Mann-Whitney U test / Logistic regression 的 p-value 均远低于 0.001，统计显著性强

亮点¶

领域推理创新：首次将货币政策传导机制形式化为结构化推理模板，模拟人类专家分析流程
PU 度量实用：EA × CR 的分解符合经济学中 risk / ambiguity 的经典划分，在金融场景中直觉自然
高 PU 预警机制：可识别不可靠预测，支持 human-in-the-loop 决策
全面超越 GPT-4.1：在会议纪要和演讲上大幅领先闭源大模型

局限与展望¶

新闻发布会表现弱于 GPT-4.1（-1.3%），实时问答的动态上下文依赖捕捉不足
依赖手工模板构建传导路径，自动化程度有限
仅在 FOMC 英文数据上验证，未扩展到 ECB/BoE 等其他央行或多语言场景
PU 阈值需在验证集上搜索，不同数据集需重新调参
未探索 "拒绝回答" 策略在实际部署中的效果

评分¶

新颖性: ⭐⭐⭐⭐ — 货币政策传导路径推理和 PU 度量的结合有明确方法论贡献
实验充分度: ⭐⭐⭐⭐ — 10+ 基线、三类文本、消融 + 统计检验，覆盖全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，经济学与 NLP 概念衔接流畅
价值: ⭐⭐⭐⭐ — 对金融 NLP 可靠性研究有实际推动作用