Think-While-Generating: On-the-Fly Reasoning for Personalized Long-Form Generation¶

会议: ICLR 2026
arXiv: 2512.06690
代码: 无
领域: 人体理解/NLP
关键词: 个性化生成, 长文本生成, 潜在推理, think-while-generating, 并行推理

一句话总结¶

FlyThinker 提出了一种高效的 "think-while-generating" 框架，使用独立的推理模型(Reasoner)在 token 级别并行生成潜在推理信号，动态融入生成模型(Generator)以指导个性化长文本生成，同时保持训练和推理效率。

研究背景与动机¶

偏好对齐使 LLM 更好地反映人类期望，但现有方法主要优化群体级偏好，忽视个体用户需求。个性化长文本生成面临三大挑战：

隐式偏好难以推理: 用户兴趣通常隐含在历史行为中，简单的 prompt 定制或微调难以有效推理这些偏好

"Think-then-generate"的局限: 现有推理方法在生成前一次性完成所有推理，产生静态分析。对长文本而言，这种一次性推理需要覆盖完整响应的所有信息，学习困难且无法适应内容动态演变

效率瓶颈: 交替推理-生成的 "think-while-generating" 范式虽然直觉合理，但频繁推理会显著增加训练和推理时间

FlyThinker 的核心洞察：通过将推理与生成解耦到两个独立模型，并打破推理 token 之间的直接序列依赖，实现推理与生成的真正并行化。

方法详解¶

整体框架¶

FlyThinker 包含两个并行模型： - Reasoner (R): 在每个生成步骤产生一个潜在推理 token，输入为查询和之前已生成的响应 - Generator (G): 增强版 LLM，将潜在推理信号融合到 token 预测中

核心公式化：

\[\text{Generation:} \quad (h,x) \xrightarrow{(h,x;\hat{y}_{<1}+r_{<1})} \hat{y}_1 \xrightarrow{(h,x;\hat{y}_{<2}+r_{<2})} \hat{y}_2 \dots\]

\[\text{Reasoning:} \quad (h,x) \xrightarrow{(h,x,\hat{y}_{<1})} r_1 \xrightarrow{(h,x,\hat{y}_{<2})} r_2 \dots\]

关键设计¶

潜在推理 token 生成 (Reasoner): Reasoner 在每步 \(t\) 从其最后一层隐状态提取潜在推理：\(r_t = R_\theta^{(-1)}(h,x; \hat{y}_{<t-1})[-1]\)。关键：\(r_t\) 不依赖之前的推理 \(r_{<t}\)，只依赖已生成的响应 \(\hat{y}_{<t-1}\)，打破了推理 token 间的序列依赖。
推理信号融合 (Generator): Generator 通过加法融合将推理注入 token 嵌入空间：\(f(\hat{y}_{<t}, r_{<t}) = [e(y_1) + \lambda r_1, \dots, e(y_{t-1}) + \lambda r_{t-1}]\)，其中 \(\lambda\) 控制推理信号强度。
并行训练: 由于 \(r_t\) 不依赖 \(r_{<t}\)，训练时可将完整目标序列 \(y\) 一次性输入 Reasoner，单次前向传播获得所有位置的推理 token \(r^\star = [r_1, \dots, r_T]\)。然后 Generator 也可并行计算所有位置的预测。与标准 LLM 训练效率接近。
并行推理: 推理时，Generator 预测当前 token 的同时，Reasoner 并行准备下一步的推理 token。交错(staggered)设计消除等待时间，推理延迟接近标准非推理 LLM。

损失函数 / 训练策略¶

使用标准的下一 token 预测损失联合优化 Reasoner 和 Generator：

\[\mathcal{L} = -\sum_{(h,x,y) \in \mathbb{D}} \sum_{t=1}^{|y|} \log P(\hat{Y}_t = y_t \mid h,x, y_{<t})\]

无需外部推理标注或辅助目标，Reasoner 在端到端训练中自然学习生成有用的推理信号。

实验关键数据¶

主实验¶

LongLaMP Benchmark（Qwen2.5-3B-Instruct 骨干）:

方法	Product Review (BLEU)	Abstract Gen. (BLEU)	Topic Writing (BLEU)
Non-pers	1.54	4.58	1.12
RAG	3.30	3.40	1.43
SFT	3.91	5.82	3.89
CoT	3.37	5.85	3.00
Coconut	3.32	5.24	3.07
FlyThinker	4.36	6.34	4.06

FlyThinker 在所有任务上均超越基线，BLEU 相比 SFT 提升约10%。

消融实验¶

配置	关键指标	说明
Reasoner 3B→1.5B	性能基本持平	中等缩减不影响质量，训练更高效
Reasoner 3B→0.5B	ROUGE-L/BLEU 明显下降	过小Reasoner容量不足
\(\lambda\)=0 (无推理)	退化为SFT	推理信号不可或缺
\(\lambda \in [0.2, 2.0]\)	均高于SFT	方法对\(\lambda\)选择鲁棒
\(\lambda\)=5 (过大)	性能下降	过强推理信号干扰生成

关键发现¶

位置敏感评估: 所有基线方法在后段（100-300 token）的个性化质量显著下降（"上下文漂移"），FlyThinker 在后段仍保持高质量，有效缓解了长文本生成中的偏好遗忘问题
训练效率: FlyThinker 训练时间仅略高于 SFT，远低于 CoT 和 Coconut
推理效率: 推理延迟接近 SFT，远快于 CoT 和 Coconut 的顺序推理
Reasoner 可缩小到1.5B而不损失质量: 提供了有利的成本-性能权衡

亮点与洞察¶

"边想边写"范式的首次高效实现: 之前的 think-while-generating 概念因效率问题难以落地，FlyThinker 通过独立 Reasoner + 打破序列依赖巧妙解决
类人的长文创作模式: 人类在写长文时也是"写到哪想到哪"，FlyThinker 的 token 级动态推理与此天然吻合
工程上非常优雅: 训练时一次前向传播完成所有推理，推理时交错并行，几乎无额外开销
对"上下文漂移"的有效对策: 位置敏感实验清晰展示了动态推理对长文本后段质量的显著改善

局限与展望¶

内存开销增加: 虽然时间效率高，但需同时维护两个模型（Reasoner + Generator），内存占用翻倍
评估指标有限: 仅使用 ROUGE/BLEU/METEOR 等自动指标，缺少人工评估和 GPT-based 评价
任务范围有限: 仅在个性化长文本生成上验证，未探索其他需要动态推理的任务
推理内容不可解释: 潜在推理 token 是隐状态向量，无法检查推理逻辑是否合理

评分¶

新颖性: ⭐⭐⭐⭐⭐ think-while-generating 的高效实现，打破推理序列依赖的设计很精妙
实验充分度: ⭐⭐⭐⭐ 三个任务 + 效率分析 + 位置敏感评估 + 消融，但缺人工评估
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，三种范式对比直观，公式简洁
价值: ⭐⭐⭐⭐ 对个性化生成和推理增强方法都有启发，但应用范围待扩展