跳转至

Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs

会议: ACL 2025
arXiv: 2409.01552
代码: 无
领域: LLM/NLP
关键词: 提示优化, 黑盒LLM对齐, 上下文学习, 强化学习, 派生提示

一句话总结

提出一种自指导强化学习框架来训练"派生提示生成模型",并将派生提示-响应对作为上下文学习(ICL)示例来增强原始提示的查询,在不修改黑盒 LLM(如 GPT-4)参数的情况下显著提升响应质量。

研究背景与动机

LLM 的表现高度依赖输入提示的质量——含糊或不精确的提示会导致低质量响应。对于 GPT-4 等黑盒 LLM,由于无法访问参数,微调对齐不可行,因此通过更好的提示来引导模型成为核心手段。

现有提示优化方法存在三大问题:

语义不一致: 精炼后的提示可能偏离原始意图。例如原始问题是"人类知识是定义和观察的集合,你怎么看?",精炼后变成了"人类知识的基础是什么,如何获取和组织?"——焦点和深度被彻底改变。

过度缩窄: BPO 等方法将"描述绿茶的健康益处"精炼为"讨论绿茶的抗氧化特性及其在预防癌症中的作用"——忽略了其他健康益处。

数据收集负担: 训练提示精炼模型通常需要大量的 (原始提示, 精炼提示) 配对数据。

核心问题:能否找到比直接用精炼提示替代原始提示更有效的方式来提升黑盒 LLM 的响应?

方法详解

整体框架

方法分为两个核心组件: 1. 自指导 RL 派生提示生成模型训练 2. 意图一致的上下文查询推理框架

关键思想转变:不直接用派生提示替代原始提示,而是将派生提示及其响应作为 ICL 示例,为原始提示构建信息丰富的上下文环境。

关键设计

  1. 派生提示生成(Derived Prompt Generation, DPG): 派生提示 \(x'\) 是原始提示 \(x\) 的一种变换,保持语义相关性但表达更优。与"精炼提示"直接替换原始提示不同,派生提示的目的是生成高质量的示例响应供 ICL 使用。

通过一个 DPG 指令 \(x_{\text{DPG}}\) 来激活预训练 LLM 的指令遵循能力: \(X = \text{Concat}([x_{\text{DPG}}, x])\) \(x' \sim \pi_\theta(X)\)

这消除了 SFT 阶段对配对数据的需求——模型天然具备指令遵循和改写能力。

  1. 自指导强化学习训练: 将响应模型 \(\mathcal{M}\)(如 GPT-4)整合到训练过程中。生成派生提示 \(x'\) → 用 \(\mathcal{M}\) 生成响应 \(y'\) → 用奖励模型 \(\mathcal{R}\) 评估 \((x', y')\) 质量 → 反馈优化生成模型 \(\pi_\theta\)

训练目标: \(\max \mathbb{E}_{(x, x', y')} \left[\mathcal{R}(x', y') - \beta \log \frac{\pi_\theta(x'|X)}{\pi_{\text{ref}}(x'|X)}\right]\)

其中 KL 散度正则化确保训练稳定性。核心优势:无需收集配对数据,直接通过交互获取训练信号。

  1. 意图一致的 ICL 查询框架: 推理时不直接用 \(x'\) 替代 \(x\),而是:

    • 生成派生提示 \(x'\)
    • 用 LLM 生成对 \(x'\) 的响应 \(y'\)
    • \((x', y')\) 作为示例填入 ICL 模板
    • 用 ICL 模板查询 LLM 生成对原始提示 \(x\) 的最终响应

这保留了原始提示的信息,同时利用高质量 ICL 环境激活 LLM 的内在知识。

损失函数 / 训练策略

  • 奖励模型: 基于 GPT2-Large 在 hh-rlhf helpful 数据集上训练
  • 训练数据: 仅需原始提示集合(BPO 训练集 14K 样本),无需配对数据
  • 参考模型: 与 \(\pi_\theta\) 相同初始化的冻结副本 \(\pi_{\text{ref}}\)
  • PPO 优化: 用 KL 正则化的 PPO 算法训练

实验关键数据

主实验(OURS vs OP/BPO,用 Llama3 训练,查询 GPT-4)

评估数据集 OURS vs OP (Win%) OURS vs BPO (Win%)
Vicuna Eval 90.0 vs 3.8 88.8 vs 7.5
BPO-test 71.0 vs 24.5 74.0 vs 25.5
Dolly Eval 80.5 vs 15.5 71.0 vs 27.0
Self-Instruct 76.2 vs 5.6 71.4 vs 21.0

消融实验(查询 GPT-4,Vicuna Eval / Self-Instruct)

编号 比较 A 比较 B Vicuna A Win Self-Inst A Win
#1 OD OP 78.8% 66.3%
#2 BPO OP 68.8% 66.3%
#5 BPO+ICL OP 76.3% 69.4%
#7 OD+ICL OD 60.0% 52.4%
#9 OD+ICL BPO+ICL 75.0% 68.9%

关键发现

  1. 对黑盒模型的显著提升: 在 GPT-4 上,Llama3 训练的方法平均 Win Rate 达 67.1%(vs OP)和 56.1%(vs BPO)。在 GPT-3.5 上更高:74.3% 和 69.9%。

  2. OD 质量优于 BPO: 仅从提示精炼角度看(#1 vs #2),OD 已展现更高质量。Vicuna 上 OD vs OP 的 net win 为 67.6%,BPO 仅 53.8%。

  3. ICL 框架是通用增强模块: 即使将 BPO 替换 OD,BPO+ICL 也显著优于 BPO alone(#5 vs #4),证明 ICL 查询是一个 plug-and-play 的通用框架。

  4. 跨模型迁移性: 用 Llama3 训练的 \(\pi_\theta\) 产生的 ICL 在 Llama2、Qwen2 甚至 GPT-4 上都能提升响应质量。

  5. 自指导 RL 优于 SFT: RL 训练后 OD vs OP 的 win rate 从 17.6% 提升到 67.6%;OD+ICL vs OP 从 39.1% 提升到 86.2%。

  6. 无训练基线已有不错表现: 直接用未训练的 LLM 生成派生提示 + ICL 已获得 39.1% 改进,说明 ICL 框架本身的有效性。

亮点与洞察

  • 范式转变: 从"用更好的提示替代原始提示"转为"用派生提示构建 ICL 环境辅助原始提示",保持了用户原始意图。这是一个关键的思维转换。
  • 零数据收集训练: 自指导 RL 利用 DPG 指令和 LLM 的指令遵循能力,消除了对 (原始, 精炼) 配对数据的需求。
  • 黑盒可用: 整个方法不修改目标 LLM 的参数,对 GPT-4 等黑盒模型完全适用。训练仅需要一个奖励模型和一个可训练的生成模型。
  • 案例分析清晰: 文中绿茶健康益处的案例生动展示了 BPO 的语义偏移问题和本文方法的优势。

局限与展望

  • 推理开销增大:每次查询需要先生成派生提示、查询 LLM 获取响应、再构建 ICL 模板查询——相当于调用 LLM 两次
  • 奖励模型(GPT2-Large based)的质量直接决定训练效果,更强的奖励模型可能带来进一步提升
  • 未在需要精确格式输出的任务(如代码生成、结构化数据提取)上测试
  • ICL 模板的设计可能影响效果,文中未深入探索不同模板变体
  • 评估主要依赖 GPT-4o 作为评判,存在评判偏差的可能

相关工作与启发

  • 与 BPO(直接精炼提示)的核心差异在于保持原始意图 + ICL 增强
  • 与 RLHF 的关键差异在于优化对象是提示生成模型而非响应模型
  • ICL 查询框架作为 plug-and-play 模块可以增强任何提示优化方法,包括未来的新方法
  • 可以将此框架扩展到多轮对话场景

评分

维度 分数 (1-5)
新颖性 4.5
实验充分度 4
写作质量 3.5
价值 4

"派生提示 + ICL"的范式转变具有很强的新颖性。实验在多个模型、多个数据集上验证了一致性。写作中存在一些符号使用不够统一的小问题。

相关论文