DeFine: Decision-Making with Analogical Reasoning over Factor Profiles¶
会议: ACL 2025
arXiv: 2410.01772
代码: 待确认
领域: LLM推理
关键词: 类比推理, 决策, 因子画像, Bradley-Terry模型, 财报电话会议
一句话总结¶
提出 DeFine 框架,从财报电话会议等复杂场景的语音转录文本中构建概率因子画像(factor profile),结合 Bradley-Terry 模型识别关键因子并通过因子画像间的 KL 散度做类比推理,用于辅助 LLM 在不确定性下做投资决策,准确率和 F1 均超越基线。
研究背景与动机¶
- 领域现状:LLM 已被广泛用于推理和决策任务,但在处理来自真实世界的长文本(如财报电话会议转录,平均约 10K token)时面临巨大挑战——近因偏差、幻觉、数值不一致等问题影响决策可靠性。
- 现有痛点:(a) 公司高管在财报电话会中往往倾向于传递正面信息以安抚投资者,但实际存在大量不确定性;(b) LLM 直接处理冗长的转录文本效果不佳;(c) 现有方法缺乏对关键决策因子的精确、定量刻画,也缺少将不确定性系统性纳入决策的机制。
- 核心矛盾:LLM 能生成推理链但解释常常含糊甚至不忠实,且无法量化各因子对最终决策的贡献权重。
- 本文要解决什么? 如何从冗长、含糊的会议转录中提取结构化的决策因子及其不确定性,并利用历史类似案例辅助当前决策?
- 切入角度:将信息压缩为概率因子画像(每个因子有多个结果及其概率),然后用因子画像的相似性(而非文本相似性)检索类比案例,让 LLM 参考类似历史案例做决策。
- 核心 idea 一句话:将复杂场景结构化为概率因子画像,用 BT 模型识别关键因子,再通过 KL 散度检索类比案例辅助 LLM 决策。
方法详解¶
整体框架¶
输入是财报电话会议转录文本,输出是五类投资决策(strong buy / buy / hold / sell / strong sell)。流程:(1) 从转录中提取 15 个因子的概率画像;(2) 用 Bradley-Terry 模型做因子成对比较,量化各因子对决策的影响力;(3) 用 KL 散度在历史案例中检索相似因子画像作为类比样本;(4) 将当前因子画像和 Top-K 类比案例一起输入 LLM 做最终决策。
关键设计¶
- 概率因子画像构建:
- 做什么:将转录文本压缩为 15 个因子(宏观经济、公司动态、历史财务指标三大类)及其概率分布
- 核心思路:用 GPT-4o 的结构化输出能力,对每个因子先从转录中生成简要总结,再对其可能结果赋予语言化概率(very unlikely → very likely,映射为 1-6),最后归一化为概率 \(P(O_{ij}|X) = \frac{P_{i,j}}{\sum_k P_{i,k}}\)
-
设计动机:因子画像不仅捕捉文本中明确提到的内容,也标注"未知/不确定"来反映文本中缺失的信息——这是传统文本摘要做不到的
-
Bradley-Terry 模型分析关键因子:
- 做什么:量化各因子对投资决策的相对影响力
- 核心思路:对训练集中标签不同的转录对做成对比较,构建因子级别的偏好矩阵 \(W\),用 EM 算法估计各因子-结果对的强度系数 \(p_x = e^{\beta_x}\)。比较权重为两个转录中对应因子结果概率的乘积 \(P(O_{ij}|X^{(A)}) \times P(O_{ij}|X^{(B)})\)
-
设计动机:不同行业的关键因子不同(如科技行业对"不确定性"因子更敏感,消费防御行业对监管变化更敏感),BT 模型可以数据驱动地自动发现
-
基于因子画像的类比推理:
- 做什么:从历史案例中检索与当前转录因子相似度最高的 K 个样本
- 核心思路:用 KL 散度衡量两个因子画像的相似度 \(D_{KL}(P||Q) = \sum_{i,j} P(O_{ij}|X) \log \frac{P(O_{ij}|X)}{Q(O_{ij}|X_c)}\),选 KL 散度最小的 Top-K 作为类比案例,连同当前因子画像一起输入 LLM 做决策
- 设计动机:基于因子画像而非全文做检索,聚焦于市场驱动因素的相似性,避免不相关细节的干扰。例如 Google 和 Broadcom 的全文差异很大,但因子画像可能高度相似
损失函数 / 训练策略¶
- 无需训练,纯推理时框架
- BT 模型参数通过 EM 算法在训练集上估计
- LLM 决策通过 in-context learning 实现
实验关键数据¶
主实验¶
| 方法 | Recall | Precision | F1 | Accuracy |
|---|---|---|---|---|
| LLM+CoT+Trans | 21.56 | 33.66 | 13.52 | 19.59 |
| LLM+CoT+Summ | 22.77 | 16.17 | 14.12 | 20.61 |
| LLM+CoT+Factors | 24.38 | 28.58 | 17.26 | 22.32 |
| DeLLMa | 38.30 | 23.14 | 16.68 | 22.35 |
| DeFine | 26.15 | 27.67 | 23.73 | 29.64 |
DeFine 在 F1 (23.73) 和 Accuracy (29.64) 上均显著领先,F1 比最佳基线 DeLLMa 高 7.05 个百分点。
消融实验(DeFine-BT 变体)¶
| 配置 | 说明 |
|---|---|
| DeFine-BT-Same Sector | 同行业内成对比较,效果稳定 |
| DeFine-BT-Cross Sectors | 跨行业比较,仍有效但因子偏好不同 |
| DeFine-BT-Same Company | 同公司历史比较,利用公司自身趋势 |
| 所有 BT 变体 | 均优于随机基线和 DeLLMa |
关键发现¶
- 因子画像优于全文和摘要:LLM+CoT+Factors (22.32%) > LLM+CoT+Trans (19.59%),说明结构化因子比冗长文本更有利于决策
- 类比推理是关键提升:DeFine (29.64%) vs LLM+CoT+Factors (22.32%),类比案例提供了具体的历史参照
- 行业差异明显:科技行业的牛市因子以"不确定性"为主(经济状况、市场情绪等均为 unknown),反映了市场对科技公司的高增长预期;消费防御行业则受监管变化和黑天鹅事件影响最大
- "Strong Sell"预测最弱:因为财报会议中高管倾向粉饰太平,转录文本本身带有正面偏差
亮点与洞察¶
- 概率因子画像的概念有广泛迁移性:不限于金融,政治辩论、咨询、风险评估等需要在不确定性下决策的场景都可以借鉴这种"从长文本提取结构化概率因子"的范式
- 用 BT 模型做因子重要性排序:经典的排序模型在此场景下被巧妙应用,将成对比较的偏好数据转化为因子强度系数
- 检索范式的创新:基于因子画像的 KL 散度做检索,比基于文本embedding的语义检索更聚焦决策相关信息
局限性 / 可改进方向¶
- 绝对准确率仍然较低(29.64%,5 类分类随机基线为 20%),说明股票预测本身极度困难,因子画像仅能捕捉部分信息
- 因子选择固定为 15 个:人工选择可能遗漏重要因子,且不同行业的最优因子集可能不同
- 依赖 GPT-4o 做因子提取:提取质量受 LLM 能力限制,且可能引入 LLM 自身的偏差
- 30 天股价变动受太多外部因素影响:财报会议只是众多信号之一
- 可改进:(a) 可以让因子集自适应调整(如用 LLM 为不同行业生成专属因子);(b) 更短预测窗口(如 1-3 天)可能更能反映财报信息的直接影响
相关工作与启发¶
- vs DeLLMa (Liu et al., 2024): DeLLMa 用决策理论对 state-action pair 排序,但不使用类比推理;DeFine 通过历史类似案例提供了更丰富的决策依据
- vs LLM+CoT+Trans: 直接处理完整转录效果最差,says明 LLM 在超长文本上的推理能力仍然有限,结构化预处理很有必要
- vs 传统贝叶斯推理: 传统方法通常缺乏与历史案例的直接关联,DeFine 的类比推理弥补了这一不足
评分¶
- 新颖性: ⭐⭐⭐⭐ 概率因子画像+BT模型+类比推理的组合在金融NLP中新颖
- 实验充分度: ⭐⭐⭐⭐ 11,950篇真实财报数据、跨行业分析、多个基线对比
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法模块化描述好
- 价值: ⭐⭐⭐ 金融预测准确率低限制了实用性,但框架设计有借鉴意义