Predicting Through Generation: Why Generation Is Better for Prediction¶

会议: ACL2025
arXiv: 2502.17817
代码: GitHub
领域: LLM预测 / 生成式预测 / 信息论
关键词: PredGen, Generation for Prediction, Data Processing Inequality, Exposure Bias, Task Adapter

一句话总结¶

本文从信息论角度证明了token级生成比pooled表示保留更多互信息，提出PredGen框架通过scheduled sampling和task adapter解决生成式预测中的exposure bias和格式不匹配问题，并设计了Writer-Director Alignment Loss统一生成与预测目标。

研究背景与动机¶

问题背景¶

LLM在NLP任务中已展现强大能力，但在预测任务（分类、回归）中通常采用pooled表示（如[CLS] token或mean pooling）+ 分类头的方式。这种pooling操作会不可逆地丢弃位置信息和序列信息，限制模型捕捉细粒度依赖关系的能力。

核心动机¶

LLM本身通过next-token prediction预训练，生成范式与其学习方式天然对齐
Pooling操作是确定性压缩，根据数据处理不等式（DPI）必然导致信息损失
将预测任务重新表述为生成任务可以保留更多与目标相关的互信息
但直接用生成做预测面临两大挑战：exposure bias和格式不匹配

研究价值¶

提出了一个简洁而深刻的观点——"生成优于预测"，并用信息论严格证明，同时通过工程创新解决了实际问题。

方法详解¶

理论基础：为什么生成更好¶

定理1（互信息在确定性压缩下不增加）：设 $\mathbf{X}$ 为输入，$\mathbf{Z}$ 为隐藏表示，$\mathbf{Z_p} = g(\mathbf{Z})$ 为pooled表示（其中 $g$ 为确定性函数如first-token或mean pooling），$\mathbf{Y}$ 为目标，则：

\[I(\mathbf{Y}; \mathbf{Z}) \geq I(\mathbf{Y}; \mathbf{Z_p})\]

证明核心：基于数据处理不等式（DPI），确定性函数不增加互信息。由于 $\mathbf{Z_p}$ 由 $\mathbf{Z}$ 通过确定性过程导出，条件熵满足 $H(\mathbf{Y}|\mathbf{Z}) \leq H(\mathbf{Y}|\mathbf{Z_p})$，因而互信息 $I(\mathbf{Y}; \mathbf{Z_p}) \leq I(\mathbf{Y}; \mathbf{Z})$。

经验验证：使用MINE方法估计互信息，在多个数据集上验证PredGen一致保留更高互信息。token级互信息分析显示，预测token（如"positive"）与语义相关词（如"funny" 0.47, "pretty" 0.34）高度关联。

PredGen框架¶

1. 预测重述为生成¶

将预测任务的目标 $\mathbf{P}$（如13.4）表示为token序列 $\mathbf{Y} = ['1','3','.','4']$，模型自回归生成： $$P(\mathbf{Y}|\mathbf{X};\theta) = \prod_{t=1}^m P(Y_t|\mathbf{X}, \mathbf{Y}_1, ..., \mathbf{Y}_{t-1}; \theta)$$

2. Scheduled Sampling解决Exposure Bias¶

核心问题：训练时conditioned on真实token，推理时依赖自身生成，小错误会累积。

解决方案：以概率 $p$ 使用模型自身预测的token（而非ground-truth），$p$ 在训练过程中逐步增加： $$\tilde{\mathbf{Y}} = \begin{cases} \mathbf{Y} & \text{with probability } (1-p) \\ \tilde{\mathbf{Y}} & \text{with probability } p \end{cases}$$

3. Task Adapter解决格式不匹配¶

生成器产生离散token，但某些任务需要连续值或结构化输出。Task Adapter $\mathcal{T}$ 将生成token的隐藏表示转换为最终预测： $$\hat{\mathbf{P}} = \mathcal{T}(\mathbf{Z}[n:n+m])$$ 其中 $\mathbf{Z}[n:n+m]$ 是生成token对应的隐藏表示。

损失函数：Writer-Director Alignment Loss (WDAL)¶

采用"编剧-导演"类比：Writer（生成器）负责生成token，Director（task adapter）负责转换为任务格式。

\[L_{\text{WDAL}} = \max(L_W^2, L_D^2) \cdot \exp\left(-|\log L_W - \log L_D|\right)\]

$L_W$：Writer Loss（交叉熵损失，衡量生成质量）
$L_D$：Director Loss（任务特定损失，衡量预测精度）
$\max(L_W^2, L_D^2)$：权威项，聚焦于误差更大的组件
$\exp(-|\log L_W - \log L_D|)$：对齐惩罚项，确保两个损失保持平衡

当两个损失差异大时，惩罚项减小但max项增大，保持总损失高，驱使模型改善弱项。

实验¶

实验设置¶

模型：Llama2-7B, Llama2-13B, Llama2-8B
PEFT方法：LoRA, AdaLoRA, RoCoFT, DoRA
分类数据集：BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-e, ARC-c, OBQA（指标：Accuracy）
回归数据集：WASSA, SICK, STSB, LCP, CLEAR, Humicroedit（指标：MSE, MAE）

主要实验结果（分类任务，Llama2-7B + LoRA）¶

方法	BoolQ	HellaSwag	WinoGrande	ARC-e	平均
Predictor	66.29	88.53	70.49	75.27	73.49
Generator	68.09	90.86	77.54	79.54	76.63
PredGen	73.82	93.14	83.21	84.79	79.67

关键发现： 1. PredGen一致优于Predictor和Generator：在所有模型×PEFT组合上，PredGen平均准确率提升约6个百分点（vs Predictor） 2. Generator优于Predictor：验证了生成优于分类的理论主张 3. 收益随模型增大而增加：Llama2-13B上PredGen平均82.71%（vs Predictor 76.20%），提升更明显 4. PEFT方法鲁棒：不同PEFT方法下PredGen均保持优势

回归任务结果¶

PredGen在多个回归基准上也一致超越baseline，特别是在需要精确数值预测的任务上（如STS-B相似度评分），Task Adapter有效弥补了离散token与连续数值的鸿沟。

互信息验证¶

在SST-2、PIQA等数据集上的MINE估计显示： - PredGen的隐藏表示与目标之间的互信息 > Generator > Predictor - 验证了DPI理论预测

亮点与洞察¶

理论优雅：利用数据处理不等式严格证明了生成优于pooling的信息论基础，论证简洁有力
WDAL损失设计巧妙：Writer-Director类比直观，log-sum-exp稳定化技巧解决了数值不稳定问题
端到端框架：将scheduled sampling、task adapter、对齐损失无缝整合，不需要修改模型架构
token级互信息可视化：清晰展示了生成token如何捕获输入的语义依赖

局限性¶

自回归生成增加了推理延迟（需要生成多个token而非单次前向传播）
Scheduled sampling的概率调度策略需要调参
对于token数很多的数值（如长浮点数），生成准确性仍可能受限
主要在Llama2系列验证，未扩展到更多架构（如encoder-only模型）

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐⭐
综合评价	⭐⭐⭐⭐⭐

这是一篇理论与实践结合得非常好的论文。核心insight——"生成保留更多信息，因此更适合预测"——通过DPI严格证明，并通过PredGen框架优雅地解决了实际挑战。WDAL损失函数设计新颖，Writer-Director类比让人印象深刻。在ACL2025论文中堪称上乘之作。