Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs¶
会议: ACL 2025
arXiv: 2409.01552
代码: 无
领域: LLM/NLP
关键词: 提示优化, 黑盒LLM对齐, 上下文学习, 强化学习, 派生提示
一句话总结¶
提出一种自指导强化学习框架来训练"派生提示生成模型",并将派生提示-响应对作为上下文学习(ICL)示例来增强原始提示的查询,在不修改黑盒 LLM(如 GPT-4)参数的情况下显著提升响应质量。
研究背景与动机¶
LLM 的表现高度依赖输入提示的质量——含糊或不精确的提示会导致低质量响应。对于 GPT-4 等黑盒 LLM,由于无法访问参数,微调对齐不可行,因此通过更好的提示来引导模型成为核心手段。
现有提示优化方法存在三大问题:
语义不一致: 精炼后的提示可能偏离原始意图。例如原始问题是"人类知识是定义和观察的集合,你怎么看?",精炼后变成了"人类知识的基础是什么,如何获取和组织?"——焦点和深度被彻底改变。
过度缩窄: BPO 等方法将"描述绿茶的健康益处"精炼为"讨论绿茶的抗氧化特性及其在预防癌症中的作用"——忽略了其他健康益处。
数据收集负担: 训练提示精炼模型通常需要大量的 (原始提示, 精炼提示) 配对数据。
核心问题:能否找到比直接用精炼提示替代原始提示更有效的方式来提升黑盒 LLM 的响应?
方法详解¶
整体框架¶
方法分为两个核心组件: 1. 自指导 RL 派生提示生成模型训练 2. 意图一致的上下文查询推理框架
关键思想转变:不直接用派生提示替代原始提示,而是将派生提示及其响应作为 ICL 示例,为原始提示构建信息丰富的上下文环境。
关键设计¶
- 派生提示生成(Derived Prompt Generation, DPG): 派生提示 \(x'\) 是原始提示 \(x\) 的一种变换,保持语义相关性但表达更优。与"精炼提示"直接替换原始提示不同,派生提示的目的是生成高质量的示例响应供 ICL 使用。
通过一个 DPG 指令 \(x_{\text{DPG}}\) 来激活预训练 LLM 的指令遵循能力: \(X = \text{Concat}([x_{\text{DPG}}, x])\) \(x' \sim \pi_\theta(X)\)
这消除了 SFT 阶段对配对数据的需求——模型天然具备指令遵循和改写能力。
- 自指导强化学习训练: 将响应模型 \(\mathcal{M}\)(如 GPT-4)整合到训练过程中。生成派生提示 \(x'\) → 用 \(\mathcal{M}\) 生成响应 \(y'\) → 用奖励模型 \(\mathcal{R}\) 评估 \((x', y')\) 质量 → 反馈优化生成模型 \(\pi_\theta\)。
训练目标: \(\max \mathbb{E}_{(x, x', y')} \left[\mathcal{R}(x', y') - \beta \log \frac{\pi_\theta(x'|X)}{\pi_{\text{ref}}(x'|X)}\right]\)
其中 KL 散度正则化确保训练稳定性。核心优势:无需收集配对数据,直接通过交互获取训练信号。
-
意图一致的 ICL 查询框架: 推理时不直接用 \(x'\) 替代 \(x\),而是:
- 生成派生提示 \(x'\)
- 用 LLM 生成对 \(x'\) 的响应 \(y'\)
- 将 \((x', y')\) 作为示例填入 ICL 模板
- 用 ICL 模板查询 LLM 生成对原始提示 \(x\) 的最终响应
这保留了原始提示的信息,同时利用高质量 ICL 环境激活 LLM 的内在知识。
损失函数 / 训练策略¶
- 奖励模型: 基于 GPT2-Large 在 hh-rlhf helpful 数据集上训练
- 训练数据: 仅需原始提示集合(BPO 训练集 14K 样本),无需配对数据
- 参考模型: 与 \(\pi_\theta\) 相同初始化的冻结副本 \(\pi_{\text{ref}}\)
- PPO 优化: 用 KL 正则化的 PPO 算法训练
实验关键数据¶
主实验(OURS vs OP/BPO,用 Llama3 训练,查询 GPT-4)¶
| 评估数据集 | OURS vs OP (Win%) | OURS vs BPO (Win%) |
|---|---|---|
| Vicuna Eval | 90.0 vs 3.8 | 88.8 vs 7.5 |
| BPO-test | 71.0 vs 24.5 | 74.0 vs 25.5 |
| Dolly Eval | 80.5 vs 15.5 | 71.0 vs 27.0 |
| Self-Instruct | 76.2 vs 5.6 | 71.4 vs 21.0 |
消融实验(查询 GPT-4,Vicuna Eval / Self-Instruct)¶
| 编号 | 比较 A | 比较 B | Vicuna A Win | Self-Inst A Win |
|---|---|---|---|---|
| #1 | OD | OP | 78.8% | 66.3% |
| #2 | BPO | OP | 68.8% | 66.3% |
| #5 | BPO+ICL | OP | 76.3% | 69.4% |
| #7 | OD+ICL | OD | 60.0% | 52.4% |
| #9 | OD+ICL | BPO+ICL | 75.0% | 68.9% |
关键发现¶
-
对黑盒模型的显著提升: 在 GPT-4 上,Llama3 训练的方法平均 Win Rate 达 67.1%(vs OP)和 56.1%(vs BPO)。在 GPT-3.5 上更高:74.3% 和 69.9%。
-
OD 质量优于 BPO: 仅从提示精炼角度看(#1 vs #2),OD 已展现更高质量。Vicuna 上 OD vs OP 的 net win 为 67.6%,BPO 仅 53.8%。
-
ICL 框架是通用增强模块: 即使将 BPO 替换 OD,BPO+ICL 也显著优于 BPO alone(#5 vs #4),证明 ICL 查询是一个 plug-and-play 的通用框架。
-
跨模型迁移性: 用 Llama3 训练的 \(\pi_\theta\) 产生的 ICL 在 Llama2、Qwen2 甚至 GPT-4 上都能提升响应质量。
-
自指导 RL 优于 SFT: RL 训练后 OD vs OP 的 win rate 从 17.6% 提升到 67.6%;OD+ICL vs OP 从 39.1% 提升到 86.2%。
-
无训练基线已有不错表现: 直接用未训练的 LLM 生成派生提示 + ICL 已获得 39.1% 改进,说明 ICL 框架本身的有效性。
亮点与洞察¶
- 范式转变: 从"用更好的提示替代原始提示"转为"用派生提示构建 ICL 环境辅助原始提示",保持了用户原始意图。这是一个关键的思维转换。
- 零数据收集训练: 自指导 RL 利用 DPG 指令和 LLM 的指令遵循能力,消除了对 (原始, 精炼) 配对数据的需求。
- 黑盒可用: 整个方法不修改目标 LLM 的参数,对 GPT-4 等黑盒模型完全适用。训练仅需要一个奖励模型和一个可训练的生成模型。
- 案例分析清晰: 文中绿茶健康益处的案例生动展示了 BPO 的语义偏移问题和本文方法的优势。
局限与展望¶
- 推理开销增大:每次查询需要先生成派生提示、查询 LLM 获取响应、再构建 ICL 模板查询——相当于调用 LLM 两次
- 奖励模型(GPT2-Large based)的质量直接决定训练效果,更强的奖励模型可能带来进一步提升
- 未在需要精确格式输出的任务(如代码生成、结构化数据提取)上测试
- ICL 模板的设计可能影响效果,文中未深入探索不同模板变体
- 评估主要依赖 GPT-4o 作为评判,存在评判偏差的可能
相关工作与启发¶
- 与 BPO(直接精炼提示)的核心差异在于保持原始意图 + ICL 增强
- 与 RLHF 的关键差异在于优化对象是提示生成模型而非响应模型
- ICL 查询框架作为 plug-and-play 模块可以增强任何提示优化方法,包括未来的新方法
- 可以将此框架扩展到多轮对话场景
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 新颖性 | 4.5 |
| 实验充分度 | 4 |
| 写作质量 | 3.5 |
| 价值 | 4 |
"派生提示 + ICL"的范式转变具有很强的新颖性。实验在多个模型、多个数据集上验证了一致性。写作中存在一些符号使用不够统一的小问题。
相关论文¶
- [ACL 2025] Length Controlled Generation for Black-box LLMs
- [ACL 2025] Leveraging In-Context Learning for Political Bias Testing of LLMs
- [ACL 2025] Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching
- [ACL 2025] Exploring Explanations Improves the Robustness of In-Context Learning
- [ACL 2025] Beyond In-Context Learning: Aligning Long-form Generation of LLMs via Task-Inherent Attribute Guidelines