L2D: Large Language Models to Diffusion Finetuning¶

会议: ICML 2025
arXiv: 2501.15781
代码: github.com/SakanaAI/L2D
领域: LLM / 测试时计算缩放
关键词: LLM微调, 扩散框架, 测试时缩放, LoRA, Classifier-free Guidance

一句话总结¶

提出L2D微调方法，将预训练LLM视为单步扩散模型，引入并行扩散路径实现多步推理缩放，不修改原始权重即可随推理步数增加获得单调递增的准确率，在4个LLM上的数学/编码/推理任务上取得一致提升。

研究背景与动机¶

领域现状：自回归LLM在语言领域取得巨大成功，但本质上缺乏按需缩放推理计算的能力——每个token的计算量固定，无法为关键决策投入更多计算。

现有痛点：(1) 现有测试时缩放方法（prompting、token-level search）受限于生成token空间，扩展性有限；(2) 语言扩散模型从头训练远远落后于自回归对应物，质疑其在语言领域的适用性；(3) LoRA等参数高效微调虽然轻量但无法提供推理时缩放能力。

核心矛盾：如何在保留LLM已有"系统1"理解能力的同时，赋予其扩散框架的推理时缩放特性？

切入角度：将LLM的下一token预测（无先验信息 \(t=0\)）视为单步扩散的特例，通过微调引入多步扩散能力作为自然扩展。

核心 idea：不从头训练语言扩散模型，而是在预训练LLM上加一条并行扩散路径，复用其知识实现多步推理。

方法详解¶

整体框架¶

L2D在冻结的LLM主路径旁引入一条并行"扩散路径"。训练时，对每个目标token \(y^k\)，采样timestep \(t\) 和噪声token \(x_t = t \cdot V_y + (1-t) \cdot x_0\)（\(x_0 \sim \mathcal{N}(0, \sigma^2 I)\)），扩散路径通过交叉注意力访问主路径的KV缓存来预测 \(y\)。推理时，从纯噪声出发，通过Euler积分逐步去噪，每步采样token embedding后更新 \(x_t\)，最终输出最终预测。

关键设计¶

并行扩散路径架构:
- 功能：在冻结LLM旁构建一条完全并行的轻量级Transformer路径
- 核心思路：扩散路径 \(f_{\theta_d}\) 与主路径 \(f_{\theta_l}\) 同层数，每层包含MLP（复用主路径权重+LoRA）和交叉注意力（query来自扩散token，key/value来自主路径自注意力的KV缓存）。仅在最终层通过加权和 \(f_{\theta_l} + w_d(t) f_{\theta_d}\) 融合，其中 \(w_d(t) = w_{\theta_d}(t) - w_{\theta_d}(0)\) 确保 \(t=0\) 时不影响原始LLM输出
- 设计动机：(1) 冻结主路径保护原始能力；(2) 共享KV缓存使推理时主路径只需计算一次；(3) 独立timestep采样使训练可跨序列并行化
交叉熵扩散训练:
- 功能：用标准CE损失（而非MSE）训练语言扩散模型
- 核心思路：损失 \(L^{CE}(\theta) = -\mathbb{E}_{x_0, x_1, t}[\log(f_\theta(x_t, t, c)_y)]\)，其中 \(x_t = t \cdot V_y + (1-t) \cdot x_0\)。扩散路径仍输出vocabulary logits，但额外接收含有目标token部分信息的 \(x_t\)（\(t=0\)为纯噪声，\(t=1\)为完美信息）。采用rectified flow调度 \(\alpha_t = t, \beta_t = 1-t\)
- 设计动机：CE损失与标准LM训练直接对接——\(t=0\)时等价于标准next-token prediction，使L2D成为LM的自然扩展
Classifier-Free Guidance + 自适应ODE求解:
- 功能：引入扩散领域的强力引导技术和自适应计算分配
- 核心思路：训练时以概率dropout类别embedding \(g_j\)，推理时构造引导预测 \(\hat{x}_g = w_g f_\theta(x_t,t,g_j,c) - (1-w_g) f_\theta(x_t,t,g_0,c)\)。自适应ODE求解器（二阶Runge-Kutta）根据扩散误差自动调节每个token的推理步数
- 设计动机：guidance使LLM获得面向特定任务的专家级生成能力；自适应求解器让模型自主决定难题多花计算

损失函数 / 训练策略¶

使用交叉熵扩散损失 \(L^{CE}\) 训练1个epoch，AdamW优化器，100步warmup+线性衰减，\(\sigma=64\)（高噪声标准差使扩散步集中在有意义的区间），扩散维度 \(\bar{d}=256\)，LoRA秩8。推理默认采用midpoint求解器+8个离散步（15次 \(f_{\theta_d}\) 评估）。

实验关键数据¶

主实验（跨4个LLM）¶

模型	方法	数学	编码	通用知识	平均	参数量
Llama 1B	基线	11.93	47.63	28.54	28.54	-
	+LoRA ft.	18.68	44.82	-	29.97	3M
	+Full ft.	22.94	31.04	-	27.04	1235M
	+L2D	28.02	49.80	-	35.50	73M
Qwen 2.5 7B	基线	11.98	73.01	-	46.65	-
	+LoRA ft.	51.95	83.83	-	63.34	10M
	+L2D	63.21	84.00	-	67.58	233M

扩展实验（Llama 1B）¶

方法	数学	编码	全部任务
L2D (15步)	28.02	49.80	35.50
L2D (127步)	28.39	51.90	36.24
L2D (自适应solver)	30.26	49.53	36.34
L2D + token search	35.95	49.79	38.57
LoRA ft. → L2D	29.19	48.45	35.51

关键发现¶

L2D的推理步数增加→准确率单调递增，复现了扩散模型的缩放特性
自适应求解器在MATH/MMLU等难题上自动分配更多步数（平均118步 vs 固定15步）
L2D与传统微调和搜索正交——三者可叠加（L2D+token search达38.57）
编码任务上Full ft.严重下降（31.04 vs 47.63基线），L2D反而提升（49.80）

亮点与洞察¶

"LLM是单步扩散模型"这一观察建立了自回归和扩散框架之间的统一视角
\(w_d(0)=0\)的设计确保L2D永远不损害原始LLM的单步能力——真正的"只增不减"
自适应ODE求解器让LLM实现逐token的计算自主分配，类比于"System 2 thinking"但不依赖CoT
L2D与LoRA/Full ft./token search均正交兼容，开辟了一个新的缩放维度

局限与展望¶

推理开销线性增长（15次 \(f_{\theta_d}\) 评估），对实时应用仍有挑战
73M-281M新参数虽远小于全量微调但仍显著高于LoRA的3-13M
仅在instruction-following数据上微调，对需要新世界知识的任务提升有限
Classifier-Free Guidance需要预定义任务类别，限制了通用性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将扩散框架的缩放特性引入自回归LLM的思路极具创新性
实验充分度: ⭐⭐⭐⭐ 4个模型、6个任务、多种缩放方式、消融充分
写作质量: ⭐⭐⭐⭐⭐ 从单步扩散到多步扩散的叙事链条清晰优雅
价值: ⭐⭐⭐⭐⭐ 开辟LLM推理缩放的新维度，与传统方法正交兼容