Supplement Generation Training for Enhancing Agentic Task Performance¶

会议: ACL 2026
arXiv: 2604.20727
代码: 无
领域: LLM Agent / LLM效率
关键词: 补充生成训练, 提示优化, 小模型辅助大模型, DPO, 代理任务

一句话总结¶

SGT（Supplement Generation Training）训练一个小型 LLM（1.7B）生成逐实例的补充文本（推理线索、摘要、错误提醒等），附加到输入后让冻结的大型 Actor 模型更有效地解决任务，在 5 个基准上平均提升 21%，无需修改大模型参数。

研究背景与动机¶

领域现状：最强的语言模型越来越多地以闭源 API 形式部署，梯度不可访问。即使可以微调，计算开销大且新模型持续发布使旧微调快速过时。优化压力自然从模型转移到输入端。现有的提示优化方法包括：全局模板方法（DSPy、TextGrad 优化指令模板）和局部方法（LPO、Prompt-OIRL 为每个输入定制提示）。

现有痛点：现有方法主要是从已有模板中选择或重排，而不是生成新的、特定于输入的内容。全局方法在整个数据集上优化固定模板，无法适应个体输入的特殊需求。局部方法虽然为每个输入定制，但仍在固定模板池中操作。它们都不能学习合成新的推理结构。

核心矛盾：提示优化不应局限于选择或重排现有模板，而应学习合成新的辅助内容来为冻结模型准备最佳上下文。这类似于执行官与助理的关系——助理的工作不是逐字转达指令，而是准备正确的上下文、提供相关背景、以最佳方式框架化每个问题。

本文目标：训练一个小型、开源的"补充生成器"（supplement generator），为每个输入动态生成辅助文本，引导冻结的大型 Actor 在推理时表现更好。

切入角度：将任务结果作为代理奖励信号训练生成器——如果补充帮助 Actor 解决了任务（成功），则该补充是好的。用 SFT warm-start + 迭代 DPO 的训练流程逐步改善补充质量。

核心 idea：用 1.7B 小模型学习生成逐实例的补充文本（8 种预定义类型 + 自由类型），通过 Actor 的任务结果作为代理奖励，用 SFT+DPO 优化生成策略——不修改 Actor 权重，只优化输入。

方法详解¶

整体框架¶

输入任务查询 \(q\) 首先经过补充生成器 \(\pi_\mathcal{S}\) 生成补充文本 \(s\)，然后 \(s\) 与 \(q\) 拼接后送入冻结的 Actor 模型 \(\pi_\mathcal{A}\) 生成最终输出 \(y = \pi_\mathcal{A}(q, s)\)。Actor 的任务结果作为代理奖励信号训练生成器。训练分两阶段：Warm-Start SFT（学习格式和类型选择）+ 迭代 DPO（优化补充质量和类型分布）。

关键设计¶

8 种补充类型 + 代理奖励信号:
- 功能：定义补充的形式多样性，并通过任务结果间接评估补充质量
- 核心思路：预定义 8 种补充类型：Answer（直接回答）、Background（背景知识）、CoT（逐步推理）、Rephrase（改述）、Summary（摘要）、Mistakes（常见错误提醒）、One-shot（单样例）、Pairs（对比正误样例）。补充质量本身难以定义，因此用 Actor 的输出结果作为代理奖励 \(r = R(y, y^*)\)，成功为 1 失败为 0。对每个查询，补充集 \(S\) 按奖励分为正集 \(S^+\) 和负集 \(S^-\)
- 设计动机：不同任务需要不同类型的辅助信息——代码任务可能需要 Pairs，QA 任务可能需要 Background。让模型自己学习最佳类型选择
Warm-Start SFT:
- 功能：教会模型生成补充的正确格式，并初步学习类型选择
- 核心思路：用未训练的 \(\pi_\mathcal{S}^0\) 对每个查询生成 9 种类型（8 + Free Style）× 5 次采样的补充，通过 Actor 执行获得代理奖励，筛选出成功的补充 \(S'^+\)，经过类型分层采样后用交叉熵损失做 SFT
- 设计动机：未训练的 LLM 自然倾向于直接解决任务而非生成补充，SFT 桥接了初始行为与目标行为之间的差距，使后续 DPO 更有效
迭代 DPO（search-and-focus 策略）:
- 功能：逐步优化补充质量并发现最有效的补充类型
- 核心思路：每轮 DPO 迭代中，当前模型 \(\pi_\mathcal{S}^t\) 生成新训练数据训练下一个 \(\pi_\mathcal{S}^{t+1}\)。第一轮的补充集从三个来源构建：Pre-Defined（8 种预定义类型）、OOD（3 种最可能的非预定义类型）、Concat（3 对成功类型的拼接）。后续迭代直接采样 20 次。偏好对分为跨类型对（指导类型选择）和类型内对（指导质量提升），每类上限 20 对。损失为 \(\mathcal{L} = \mathcal{L}_{DPO} + \alpha \mathcal{L}_{NLL}\)（\(\alpha = 1\)）
- 设计动机：早期迭代探索多样类型（search），后期集中于最有效类型（focus）。实验显示 Pairs 类型在 Spider 和 HLE 上主导，但 DS-1000 上分布更均匀——模型学会了任务适应性的类型选择

损失函数 / 训练策略¶

SFT 阶段使用标准交叉熵损失。DPO 阶段使用 DPO 损失 + 长度归一化的 NLL 损失，\(\alpha = 1\)。迭代 5 轮。补充生成器为 Qwen3-1.7B（thinking mode 禁用），Actor 为 v3.5-sonnet-v2 和 GPT-OSS-120B。

实验关键数据¶

主实验（5 个基准 × 2 个 Actor 平均增益）¶

方法	Spider	DS-1000	HotpotQA	HLE	superGPQA	Avg. Gain
∅→π_A（无补充）	0.674	0.553	0.694	0.030	0.288	–
CoT 推理扩展	0.676	0.565	0.655	0.028	0.340	+5%
TextGrad	0.687	0.613	0.677	0.028	0.298	+1%
DSPy	0.707	0.598	0.680	0.032	0.297	+4%
SGT (SFT only)	0.718	0.573	0.689	0.035	0.273	+5%
SGT (DPO iter5)	0.784	0.593	0.705	0.049	0.314	+21%

消融：训练阶段增量¶

DPO 迭代	Avg. Gain
SFT only	+5%
DPO iter1	+10%
DPO iter3	+16%
DPO iter5	+21%

关键发现¶

SGT 在所有基准上一致优于所有基线，平均 +21%，远超 TextGrad (+1%) 和 DSPy (+4%)
结构化推理任务获益最大：Spider 从 0.674 提升到 0.784（+16.3%p），因为补充帮助 Actor 外化中间推理步骤
开放式推理任务（HotpotQA）改善较小，因为瓶颈在知识获取而非推理组织
小模型（1.7B）直接解决任务性能极差（-23%），但作为补充生成器效果显著（+21%），说明补充生成 ≠ 任务求解
类型分布在 DPO 训练中显著变化：Spider 上 Pairs 类型从均匀分布逐渐主导，DS-1000 保持多样性——模型自动适应了任务特性
DPO 的迭代改善持续到第 5 轮，未见明显饱和

亮点与洞察¶

"助理-执行官"类比精准：小模型不是来解决问题的，而是来为大模型"备课"的。这个角色分工的洞察转化为了非常实用的系统架构
search-and-focus 策略自然涌现：早期迭代探索类型多样性，后期集中于最有效类型——这不是显式编程的，而是 DPO + 自然选择的结果
任务适应性的类型选择：模型学会了为 Spider 生成 Pairs（对比正误 SQL），为 DS-1000 生成 Summary + CoT——这种自动策略适配能力是 SGT 超越固定模板方法的关键原因
该框架可迁移到任何"小模型辅助大模型"的场景：如 RAG 中的查询改写、Agent 中的规划辅助等

局限与展望¶

数据集规模刻意限制在百到千级别，大规模场景下的 scaling 行为未知
补充类型预定义为 8 种，虽然 DPO 过程中会发现新类型，但初始化仍依赖人工设计
评估在低资源设置下进行，实际生产中数据量更大时效果是否保持存疑
补充生成器和 Actor 来自不同模型家族，但未探索同家族模型组合可能的共线性问题
Actor 设置为低推理强度（GPT-OSS medium），高推理强度下 SGT 的增益可能缩小

评分¶

新颖性: ⭐⭐⭐⭐ 补充生成器的角色定位新颖（不解决问题，只辅助大模型），SFT+迭代 DPO 的训练流程有工程创新
实验充分度: ⭐⭐⭐⭐ 5 个基准、2 个 Actor、多种基线对比、类型分布分析、消融研究全面
写作质量: ⭐⭐⭐⭐ "执行官-助理"类比生动，Figure 1/2 清晰，但方法细节（采样策略）较繁琐
价值: ⭐⭐⭐⭐⭐ 21% 平均提升 + 1.7B 小模型 + 不修改大模型 = 极高的实际部署价值