DeFine: Decision-Making with Analogical Reasoning over Factor Profiles¶

会议: ACL 2025
arXiv: 2410.01772
代码: 待确认
领域: LLM推理
关键词: 类比推理, 决策, 因子画像, Bradley-Terry模型, 财报电话会议

一句话总结¶

提出 DeFine 框架，从财报电话会议等复杂场景的语音转录文本中构建概率因子画像(factor profile)，结合 Bradley-Terry 模型识别关键因子并通过因子画像间的 KL 散度做类比推理，用于辅助 LLM 在不确定性下做投资决策，准确率和 F1 均超越基线。

研究背景与动机¶

领域现状：LLM 已被广泛用于推理和决策任务，但在处理来自真实世界的长文本（如财报电话会议转录，平均约 10K token）时面临巨大挑战——近因偏差、幻觉、数值不一致等问题影响决策可靠性。
现有痛点：(a) 公司高管在财报电话会中往往倾向于传递正面信息以安抚投资者，但实际存在大量不确定性；(b) LLM 直接处理冗长的转录文本效果不佳；(c) 现有方法缺乏对关键决策因子的精确、定量刻画，也缺少将不确定性系统性纳入决策的机制。
核心矛盾：LLM 能生成推理链但解释常常含糊甚至不忠实，且无法量化各因子对最终决策的贡献权重。
本文要解决什么？ 如何从冗长、含糊的会议转录中提取结构化的决策因子及其不确定性，并利用历史类似案例辅助当前决策？
切入角度：将信息压缩为概率因子画像（每个因子有多个结果及其概率），然后用因子画像的相似性（而非文本相似性）检索类比案例，让 LLM 参考类似历史案例做决策。
核心 idea 一句话：将复杂场景结构化为概率因子画像，用 BT 模型识别关键因子，再通过 KL 散度检索类比案例辅助 LLM 决策。

方法详解¶

整体框架¶

输入是财报电话会议转录文本，输出是五类投资决策（strong buy / buy / hold / sell / strong sell）。流程：(1) 从转录中提取 15 个因子的概率画像；(2) 用 Bradley-Terry 模型做因子成对比较，量化各因子对决策的影响力；(3) 用 KL 散度在历史案例中检索相似因子画像作为类比样本；(4) 将当前因子画像和 Top-K 类比案例一起输入 LLM 做最终决策。

关键设计¶

概率因子画像构建:
做什么：将转录文本压缩为 15 个因子（宏观经济、公司动态、历史财务指标三大类）及其概率分布
核心思路：用 GPT-4o 的结构化输出能力，对每个因子先从转录中生成简要总结，再对其可能结果赋予语言化概率（very unlikely → very likely，映射为 1-6），最后归一化为概率 \(P(O_{ij}|X) = \frac{P_{i,j}}{\sum_k P_{i,k}}\)
设计动机：因子画像不仅捕捉文本中明确提到的内容，也标注"未知/不确定"来反映文本中缺失的信息——这是传统文本摘要做不到的
Bradley-Terry 模型分析关键因子:
做什么：量化各因子对投资决策的相对影响力
核心思路：对训练集中标签不同的转录对做成对比较，构建因子级别的偏好矩阵 \(W\)，用 EM 算法估计各因子-结果对的强度系数 \(p_x = e^{\beta_x}\)。比较权重为两个转录中对应因子结果概率的乘积 \(P(O_{ij}|X^{(A)}) \times P(O_{ij}|X^{(B)})\)
设计动机：不同行业的关键因子不同（如科技行业对"不确定性"因子更敏感，消费防御行业对监管变化更敏感），BT 模型可以数据驱动地自动发现
基于因子画像的类比推理:
做什么：从历史案例中检索与当前转录因子相似度最高的 K 个样本
核心思路：用 KL 散度衡量两个因子画像的相似度 \(D_{KL}(P||Q) = \sum_{i,j} P(O_{ij}|X) \log \frac{P(O_{ij}|X)}{Q(O_{ij}|X_c)}\)，选 KL 散度最小的 Top-K 作为类比案例，连同当前因子画像一起输入 LLM 做决策
设计动机：基于因子画像而非全文做检索，聚焦于市场驱动因素的相似性，避免不相关细节的干扰。例如 Google 和 Broadcom 的全文差异很大，但因子画像可能高度相似

损失函数 / 训练策略¶

无需训练，纯推理时框架
BT 模型参数通过 EM 算法在训练集上估计
LLM 决策通过 in-context learning 实现

实验关键数据¶

主实验¶

方法	Recall	Precision	F1	Accuracy
LLM+CoT+Trans	21.56	33.66	13.52	19.59
LLM+CoT+Summ	22.77	16.17	14.12	20.61
LLM+CoT+Factors	24.38	28.58	17.26	22.32
DeLLMa	38.30	23.14	16.68	22.35
DeFine	26.15	27.67	23.73	29.64

DeFine 在 F1 (23.73) 和 Accuracy (29.64) 上均显著领先，F1 比最佳基线 DeLLMa 高 7.05 个百分点。

消融实验（DeFine-BT 变体）¶

配置	说明
DeFine-BT-Same Sector	同行业内成对比较，效果稳定
DeFine-BT-Cross Sectors	跨行业比较，仍有效但因子偏好不同
DeFine-BT-Same Company	同公司历史比较，利用公司自身趋势
所有 BT 变体	均优于随机基线和 DeLLMa

关键发现¶

因子画像优于全文和摘要：LLM+CoT+Factors (22.32%) > LLM+CoT+Trans (19.59%)，说明结构化因子比冗长文本更有利于决策
类比推理是关键提升：DeFine (29.64%) vs LLM+CoT+Factors (22.32%)，类比案例提供了具体的历史参照
行业差异明显：科技行业的牛市因子以"不确定性"为主（经济状况、市场情绪等均为 unknown），反映了市场对科技公司的高增长预期；消费防御行业则受监管变化和黑天鹅事件影响最大
"Strong Sell"预测最弱：因为财报会议中高管倾向粉饰太平，转录文本本身带有正面偏差

亮点与洞察¶

概率因子画像的概念有广泛迁移性：不限于金融，政治辩论、咨询、风险评估等需要在不确定性下决策的场景都可以借鉴这种"从长文本提取结构化概率因子"的范式
用 BT 模型做因子重要性排序：经典的排序模型在此场景下被巧妙应用，将成对比较的偏好数据转化为因子强度系数
检索范式的创新：基于因子画像的 KL 散度做检索，比基于文本embedding的语义检索更聚焦决策相关信息

局限性 / 可改进方向¶

绝对准确率仍然较低（29.64%，5 类分类随机基线为 20%），说明股票预测本身极度困难，因子画像仅能捕捉部分信息
因子选择固定为 15 个：人工选择可能遗漏重要因子，且不同行业的最优因子集可能不同
依赖 GPT-4o 做因子提取：提取质量受 LLM 能力限制，且可能引入 LLM 自身的偏差
30 天股价变动受太多外部因素影响：财报会议只是众多信号之一
可改进：(a) 可以让因子集自适应调整（如用 LLM 为不同行业生成专属因子）；(b) 更短预测窗口（如 1-3 天）可能更能反映财报信息的直接影响

评分¶

新颖性: ⭐⭐⭐⭐ 概率因子画像+BT模型+类比推理的组合在金融NLP中新颖
实验充分度: ⭐⭐⭐⭐ 11,950篇真实财报数据、跨行业分析、多个基线对比
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法模块化描述好
价值: ⭐⭐⭐ 金融预测准确率低限制了实用性，但框架设计有借鉴意义