OPTS: Bandit-Based Prompt Design Strategy Selection Improves Prompt Optimizers¶

会议: ACL 2025
arXiv: 2503.01163
代码: GitHub
领域: Prompt 优化
关键词: Prompt设计策略, Thompson采样, 多臂老虎机, EvoPrompt, 策略选择, BIG-Bench Hard

一句话总结¶

首次提出 Prompt 设计策略的显式选择机制 OPTS——将 CoT/角色提示/少样本等多种策略视为多臂老虎机的"臂"，用 Thompson 采样动态选择要应用的策略，集成到 EvoPrompt 后在 BIG-Bench Hard 上将 GPT-4o mini 性能提升最高 50%，超越隐式策略选择（APET）和均匀采样。

背景与动机¶

Prompt 优化（如 EvoPrompt）能自动发现有效 prompt，但生成的 prompt 常不如人类专家精心设计的。Prompt 设计策略（CoT、角色提示、分步指令等）代表了最佳实践，可以提升优化效果。APET 方法将所有策略一起喂给 LLM 隐式选择，但：

策略可能有负效果：CoT 和角色提示在某些任务上反而降低性能
隐式选择不可靠：LLM 的优化能力有限，不能有效选择策略

核心问题¶

如何在 prompt 优化过程中显式选择最合适的设计策略——既利用人类知识又避免负效果策略？

方法详解¶

OPTS 框架¶

将 K 种 prompt 设计策略 + 1 个"不使用策略"选项建模为 K+1 臂的多臂老虎机问题。

三种选择机制¶

均匀采样（Uniform）：每次随机选一种策略——基线
ε-Greedy：以 ε 概率探索随机策略，以 1-ε 概率选历史最优策略
Thompson 采样（TS）：维护每种策略的 Beta(α,β) 先验分布，根据采样值选择——最优方法
策略成功（prompt 质量提升）→ 更新 α
策略失败 → 更新 β
自然平衡探索与利用

与 EvoPrompt 集成¶

EvoPrompt 生成候选 prompt 后，OPTS 选择一种策略
选中策略的描述传给 LLM，LLM 将策略应用到候选 prompt 上
修改后的 prompt 评估性能，反馈给老虎机更新

实验关键数据¶

对比	结果
EvoPrompt + OPTS(TS) vs 原始 EvoPrompt	最高 +50%（GPT-4o mini）
OPTS(TS) vs APET（隐式选择）	一致更优
OPTS(TS) vs 均匀采样	更优
Llama-3-8B + OPTS(TS)	也有一致提升

在 BIG-Bench Hard 多个任务上验证
Thompson 采样总体最优——有效平衡探索未知策略和利用已知好策略

亮点¶

首次显式选择 prompt 设计策略——概念简单但效果显著
Thompson 采样是优雅的选择——有理论保证的探索-利用权衡
策略可能有害的清醒认识——不是所有策略都有益，需要选择
模块化设计：OPTS 可接入任何 prompt 优化器（不仅是 EvoPrompt）

局限性 / 可改进方向¶

仅在 BIG-Bench Hard 验证：其他任务/基准未测试
策略集合固定：未探索训练中动态发现新策略
仅两个 LLM：更多模型的泛化性未知
上下文相关性：不同任务可能需要不同策略组合而非单策略

与相关工作的对比¶

vs APET（隐式选择）：将所有策略给 LLM 隐式选择可能次优；OPTS 显式选择更可控
vs 固定 CoT/角色提示：总是用某策略可能在某些任务上有害；OPTS 动态适应
vs EvoPrompt（无策略）：缺乏人类设计知识；OPTS 将最佳实践注入优化

启发与关联¶

多臂老虎机是 AutoML/超参搜索的标准工具——引入 prompt 优化是自然扩展
"策略可能有害"的认识对所有 prompt 工程实践者都重要
显式选择 > 隐式选择的模式可推广到其他需要从多种方法中选择的场景

评分¶

新颖性: ⭐⭐⭐⭐ 首次显式策略选择+Thompson采样用于prompt优化
实验充分度: ⭐⭐⭐⭐ BIG-Bench Hard×2 LLM×3选择机制
写作质量: ⭐⭐⭐⭐ 动机清晰，框架图直观
价值: ⭐⭐⭐⭐ 对prompt优化从业者有直接实用价值