CAST: Achieving Stable LLM-based Text Analysis for Data Analytics¶

会议: ACL 2026
arXiv: 2602.15861
代码: https://github.com/jxtse/CAST-text-analysis
领域: LLM评估
关键词: 输出稳定性, 文本分析, 表格数据, 算法提示, 中间状态承诺

一句话总结¶

提出CAST框架，通过算法提示（Algorithmic Prompting）和先思考后输出（Thinking-before-Speaking）两种机制约束LLM的潜在推理路径，显著提升文本摘要和标注任务的运行间稳定性，同时不损失输出质量。

研究背景与动机¶

领域现状：Text Analysis for Data Analysis (TADA) 是将表格中的自由文本列转化为结构化表示（如摘要主题、行级标签）的范式。LLM是执行TADA的天然候选工具，一个模型通过自然语言查询即可完成多种文本分析任务。

现有痛点：LLM生成的概率性本质与数据分析的确定性需求之间存在根本冲突。同一输入在不同运行中可能产生语义漂移的输出（如同一条评论被标记为"Customer Service"或"Support Team"），导致下游的过滤、分组、聚合结果不一致，破坏可复现性和信任度。

核心矛盾：不稳定性的根源在于LLM内部存在无约束的潜在推理轨迹。从概率视角看，提示LLM会在可能的推理路径上诱导一个分布；当该分布熵较高（模型对下一步推理不确定）时，微小的随机波动就会导致输出漂移。现有方法（如Self-Consistency）通过多次采样投票来提升正确性，但不针对稳定性设计。

本文目标：在不依赖重复采样的前提下，通过约束生成过程中的推理路径来实现输出稳定性。

切入角度：作者观察到，让模型在生成最终输出前先产生相关的中间推理状态，即使不指定具体内容，也能显著降低输出长度和内容的方差。

核心 idea：通过算法提示提供程序化脚手架约束推理转移，通过先思考后输出机制将关键中间状态显式固定，两者协同使推理路径集中在少数高概率轨迹上。

方法详解¶

整体框架¶

CAST以单次结构化LLM调用实现：输入为表格文本数据和分析查询，输出为稳定的结构化结果（摘要或标签）。同一模板通过切换任务特定的schema和约束来适配不同任务，内部流程包含中间承诺写入和自验证。

关键设计¶

算法提示 (Algorithmic Prompting, AP):
- 功能：为任务提供程序化脚手架，约束有效的推理状态转移
- 核心思路：将经典的确定性工作流和专家启发式编码为结构化提示序列。对于摘要任务，指导LLM先解释查询、分解约束，再按算法流程执行。形式上，AP在每一步引入门控函数 \(g_t(z_t, z_{<t}, x)\)，通过硬掩码或软加权使概率质量集中在更少的合理下一状态上，降低局部不确定性 \(H(Z_t|Z_{<t}, x, \mathcal{C}_{AP})\)
- 设计动机：无约束的推理转移是不稳定性的根源，AP通过提供确定性的分析工作流作为强先验来"修剪"无效推理路径
先思考后输出 (Thinking-before-Speaking, TbS):
- 功能：通过强制模型显式承诺关键中间状态来减少路径分歧
- 核心思路：不让模型隐式遍历推理轨迹只暴露最终输出，而是要求模型依次生成中间状态（如领域判断、主题schema、聚类结果），每个后续生成都以先前承诺为条件。基于条件化降低熵的信息论原理：\(H(Z_{>t}|X=x, Z_{\leq t}) \leq H(Z_{>t}|X=x)\)
- 设计动机：一旦schema、主题集或领域决策被固定，后续生成被迫与之保持一致，使推理路径对微小随机波动不敏感
稳定性评估指标 (CAST-S/CAST-T):
- 功能：专门量化运行间稳定性的评估指标
- 核心思路：CAST-S用于摘要，结合语义分数 \(S_{sem}\)（内容重叠）和位置分数 \(S_{pos}\)（基于Kendall's Tau的排序一致性），\(S_{CAST-S}(\alpha) = \alpha \cdot S_{sem} + (1-\alpha) \cdot S_{pos}\)，\(\alpha=0.9\)时与人类判断相关性最高（\(r=0.813\)）。CAST-T用于标注，先由LLM按语义等价聚类多次运行的标签，再计算主导聚类的比例
- 设计动机：现有的ROUGE-L、余弦相似度等指标不敏感于分析场景中重要的语义漂移和排序变化

损失函数 / 训练策略¶

CAST是纯推理时方法，不涉及训练。通过精心设计的结构化提示在单次API调用中实现约束推理，无需多次采样或投票。

实验关键数据¶

主实验¶

模型	方法	摘要稳定性(CAST-S)↑	独立标注准确率↑	联合标注稳定性(CAST-T)↑
GPT-5.2	Baseline	9.24	95.0%	9.40
GPT-5.2	Self-Consistency	7.40	96.2%	9.16
GPT-5.2	CAST	9.39	98.2%	9.60
DeepSeek-V3.2	Baseline	8.15	92.7%	8.78
DeepSeek-V3.2	CAST	9.47	95.6%	9.14
Gemini-3-Flash	Baseline	9.80	96.0%	8.18
Gemini-3-Flash	CAST	9.93	96.8%	8.26

消融实验¶

配置	摘要稳定性 (DeepSeek)	说明
Full CAST (AP+TbS)	9.47	完整模型
AP Only	8.97	仅算法提示
TbS Only	9.46	仅先思考后输出
Few-shot	8.96	少样本提示
Self-Consistency	7.06	多次采样投票反而更差

关键发现¶

Self-Consistency在稳定性上反而最差，因为其扩散采样不适合可靠的事后聚合，且计算开销是CAST的3倍以上
AP和TbS有协同效应，完整CAST通常优于单独使用任一组件
CAST在提升稳定性的同时还略微提升了摘要质量（recall从0.854提升至0.879）

亮点与洞察¶

从信息论角度形式化了LLM输出不稳定性的机制——推理路径的高熵，并给出了约束推理降低熵的理论框架，这比经验性调参更有说服力
发现即使不指定中间状态的具体内容，仅要求模型产生相关中间推理就能降低输出方差，这个观察极其实用
CAST-S/CAST-T评估指标填补了稳定性量化的空白，适用于任何需要LLM输出一致性的场景

局限与展望¶

算法脚手架目前需要人工设计，扩展到全新任务领域可能受限
实验主要覆盖摘要和标注，未验证在更复杂的TADA组合工作流中的效果
过度约束可能抑制某些分析场景中有价值的细微变化

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统化地研究LLM在数据分析场景中的输出稳定性问题
实验充分度: ⭐⭐⭐⭐ 3个模型、多个基线和消融、人类评估验证指标
写作质量: ⭐⭐⭐⭐⭐ 理论框架和实证观察结合紧密，叙述清晰
价值: ⭐⭐⭐⭐ 对LLM在生产环境中的可靠部署有重要参考价值

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评