Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs¶

会议: ACL 2025
arXiv: 2409.01552
代码: 无
领域: LLM/NLP
关键词: 提示优化, 黑盒LLM对齐, 上下文学习, 强化学习, 派生提示

一句话总结¶

提出一种自指导强化学习框架来训练"派生提示生成模型"，并将派生提示-响应对作为上下文学习（ICL）示例来增强原始提示的查询，在不修改黑盒 LLM（如 GPT-4）参数的情况下显著提升响应质量。

研究背景与动机¶

LLM 的表现高度依赖输入提示的质量——含糊或不精确的提示会导致低质量响应。对于 GPT-4 等黑盒 LLM，由于无法访问参数，微调对齐不可行，因此通过更好的提示来引导模型成为核心手段。

现有提示优化方法存在三大问题：

语义不一致: 精炼后的提示可能偏离原始意图。例如原始问题是"人类知识是定义和观察的集合，你怎么看？"，精炼后变成了"人类知识的基础是什么，如何获取和组织？"——焦点和深度被彻底改变。

过度缩窄: BPO 等方法将"描述绿茶的健康益处"精炼为"讨论绿茶的抗氧化特性及其在预防癌症中的作用"——忽略了其他健康益处。

数据收集负担: 训练提示精炼模型通常需要大量的 (原始提示, 精炼提示) 配对数据。

核心问题：能否找到比直接用精炼提示替代原始提示更有效的方式来提升黑盒 LLM 的响应？

方法详解¶

整体框架¶

方法分为两个核心组件： 1. 自指导 RL 派生提示生成模型训练 2. 意图一致的上下文查询推理框架

关键思想转变：不直接用派生提示替代原始提示，而是将派生提示及其响应作为 ICL 示例，为原始提示构建信息丰富的上下文环境。

关键设计¶

派生提示生成（Derived Prompt Generation, DPG）: 派生提示 \(x'\) 是原始提示 \(x\) 的一种变换，保持语义相关性但表达更优。与"精炼提示"直接替换原始提示不同，派生提示的目的是生成高质量的示例响应供 ICL 使用。

通过一个 DPG 指令 \(x_{\text{DPG}}\) 来激活预训练 LLM 的指令遵循能力： \(X = \text{Concat}([x_{\text{DPG}}, x])\) \(x' \sim \pi_\theta(X)\)

这消除了 SFT 阶段对配对数据的需求——模型天然具备指令遵循和改写能力。

自指导强化学习训练: 将响应模型 \(\mathcal{M}\)（如 GPT-4）整合到训练过程中。生成派生提示 \(x'\) → 用 \(\mathcal{M}\) 生成响应 \(y'\) → 用奖励模型 \(\mathcal{R}\) 评估 \((x', y')\) 质量 → 反馈优化生成模型 \(\pi_\theta\)。

训练目标： \(\max \mathbb{E}_{(x, x', y')} \left[\mathcal{R}(x', y') - \beta \log \frac{\pi_\theta(x'|X)}{\pi_{\text{ref}}(x'|X)}\right]\)

其中 KL 散度正则化确保训练稳定性。核心优势：无需收集配对数据，直接通过交互获取训练信号。

意图一致的 ICL 查询框架: 推理时不直接用 \(x'\) 替代 \(x\)，而是：
- 生成派生提示 \(x'\)
- 用 LLM 生成对 \(x'\) 的响应 \(y'\)
- 将 \((x', y')\) 作为示例填入 ICL 模板
- 用 ICL 模板查询 LLM 生成对原始提示 \(x\) 的最终响应

这保留了原始提示的信息，同时利用高质量 ICL 环境激活 LLM 的内在知识。

损失函数 / 训练策略¶

奖励模型: 基于 GPT2-Large 在 hh-rlhf helpful 数据集上训练
训练数据: 仅需原始提示集合（BPO 训练集 14K 样本），无需配对数据
参考模型: 与 \(\pi_\theta\) 相同初始化的冻结副本 \(\pi_{\text{ref}}\)
PPO 优化: 用 KL 正则化的 PPO 算法训练

实验关键数据¶

主实验（OURS vs OP/BPO，用 Llama3 训练，查询 GPT-4）¶

评估数据集	OURS vs OP (Win%)	OURS vs BPO (Win%)
Vicuna Eval	90.0 vs 3.8	88.8 vs 7.5
BPO-test	71.0 vs 24.5	74.0 vs 25.5
Dolly Eval	80.5 vs 15.5	71.0 vs 27.0
Self-Instruct	76.2 vs 5.6	71.4 vs 21.0

消融实验（查询 GPT-4，Vicuna Eval / Self-Instruct）¶

编号	比较 A	比较 B	Vicuna A Win	Self-Inst A Win
#1	OD	OP	78.8%	66.3%
#2	BPO	OP	68.8%	66.3%
#5	BPO+ICL	OP	76.3%	69.4%
#7	OD+ICL	OD	60.0%	52.4%
#9	OD+ICL	BPO+ICL	75.0%	68.9%

关键发现¶

对黑盒模型的显著提升: 在 GPT-4 上，Llama3 训练的方法平均 Win Rate 达 67.1%（vs OP）和 56.1%（vs BPO）。在 GPT-3.5 上更高：74.3% 和 69.9%。
OD 质量优于 BPO: 仅从提示精炼角度看（#1 vs #2），OD 已展现更高质量。Vicuna 上 OD vs OP 的 net win 为 67.6%，BPO 仅 53.8%。
ICL 框架是通用增强模块: 即使将 BPO 替换 OD，BPO+ICL 也显著优于 BPO alone（#5 vs #4），证明 ICL 查询是一个 plug-and-play 的通用框架。
跨模型迁移性: 用 Llama3 训练的 \(\pi_\theta\) 产生的 ICL 在 Llama2、Qwen2 甚至 GPT-4 上都能提升响应质量。
自指导 RL 优于 SFT: RL 训练后 OD vs OP 的 win rate 从 17.6% 提升到 67.6%；OD+ICL vs OP 从 39.1% 提升到 86.2%。
无训练基线已有不错表现: 直接用未训练的 LLM 生成派生提示 + ICL 已获得 39.1% 改进，说明 ICL 框架本身的有效性。

亮点与洞察¶

范式转变: 从"用更好的提示替代原始提示"转为"用派生提示构建 ICL 环境辅助原始提示"，保持了用户原始意图。这是一个关键的思维转换。
零数据收集训练: 自指导 RL 利用 DPG 指令和 LLM 的指令遵循能力，消除了对 (原始, 精炼) 配对数据的需求。
黑盒可用: 整个方法不修改目标 LLM 的参数，对 GPT-4 等黑盒模型完全适用。训练仅需要一个奖励模型和一个可训练的生成模型。
案例分析清晰: 文中绿茶健康益处的案例生动展示了 BPO 的语义偏移问题和本文方法的优势。

局限与展望¶

推理开销增大：每次查询需要先生成派生提示、查询 LLM 获取响应、再构建 ICL 模板查询——相当于调用 LLM 两次
奖励模型（GPT2-Large based）的质量直接决定训练效果，更强的奖励模型可能带来进一步提升
未在需要精确格式输出的任务（如代码生成、结构化数据提取）上测试
ICL 模板的设计可能影响效果，文中未深入探索不同模板变体
评估主要依赖 GPT-4o 作为评判，存在评判偏差的可能

评分¶

维度	分数 (1-5)
新颖性	4.5
实验充分度	4
写作质量	3.5
价值	4

"派生提示 + ICL"的范式转变具有很强的新颖性。实验在多个模型、多个数据集上验证了一致性。写作中存在一些符号使用不够统一的小问题。