SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization¶
会议: ACL 2025
arXiv: 2402.11347
领域: Prompt Optimization / LLM Efficiency
关键词: Prompt Optimization, Metaheuristic Optimization, Exploration-Exploitation, In-Context Learning, Cohesive Prompt
一句话总结¶
本文提出 SEE 框架,首次将指令(instruction)和示例(examples)作为整体进行联合优化,采用元启发式优化原则设计四阶段探索-利用策略,在35个基准任务上实现平均13.94%的准确率提升并降低58.67%的计算成本。
研究背景与动机¶
- 手动设计高质量的LLM提示需要大量人力和专业知识,自动提示优化至关重要
- 现有方法的核心局限——指令与示例分离优化:
- 一类工作(APE、OPRO、APO)专注于zero-shot场景下的指令优化
- 另一类工作聚焦于few-shot示例选择(给定固定指令)
- 两者忽略了指令与示例的协同性(cohesiveness),分别优化导致次优性能
- 联合优化面临两大挑战:
- 性能挑战:高维离散空间中如何避免局部最优?
- 效率挑战:如何在合理计算成本下快速收敛?
方法详解¶
整体框架¶
SEE基于元启发式优化框架,核心思想是将提示优化视为高维组合优化问题,通过四个阶段交替进行探索(exploration)和利用(exploitation):
Phase 0 - 全局初始化:生成多样化初始候选池 Phase 1 - 局部反馈优化:快速将每个候选推向其局部最优 Phase 2 - 全局融合操作:跨候选融合特征以逃离局部最优 Phase 3 - 局部语义操作:最后一轮精细打磨,加速收敛
关键设计¶
五种LLM算子:
全局算子(探索型): 1. Lamarckian算子:从输入/输出对"逆向工程"出任务指令,引入多样性 2. EDA算子:从一组候选中学习分布,生成新候选(可排序 → EDA+I) 3. Crossover算子:组合两个父代的特征生成子代(可差异化选择 → CR+D)
局部算子(利用型): 4. Feedback算子:使用LLM "审查员"分析错误并生成改进策略,"改进者"执行修正(收敛速度最快,但API成本较高) 5. Semantic算子:在保持语义不变的前提下进行词汇层面修改(成本低、稳定)
两个创新设计:
- 基于性能向量的Hamming距离:
- 不使用余弦文本相似度,而是构建"性能向量"(如[1,1,1,0,0]表示在5个dev样本上的对错情况)
-
用Hamming距离衡量候选差异,确保融合操作选择互补性强的父代
-
自适应阶段终止准则:
- 性能增益:当算子不再带来提升时切换到下一阶段
- 算子容忍度:全局算子允许更长时间无即时提升(因其长期探索价值),局部算子容忍度低
初始化策略: - SEE-io-pair:从任务输入/输出对出发,用Lamarckian算子逆向工程指令 - SEE-example:从专家构建的提示出发,用Semantic算子增加多样性
实验关键数据¶
主实验¶
BBH任务(8个): | 方法 | 平均准确率 | |------|----------| | OPRO | 基线 | | EvoPrompt | 基线+0.08 | | AELP | 基线+0.72 | | SEE-io-pair | 基线+13.21 | | SEE-example | 基线+13.94 |
代表性任务表现: - Causal Judgement: SEE-example 89.09% vs AELP 77.77% - Color Reasoning: SEE-example 86.29% vs AELP 73.49% - Salient Translation: SEE-example 80.64% vs AELP 68.14%
检测任务(3个): - Ethos: SEE比APO +1% - Sarcasm: SEE比APO +4% - Liar(复杂任务): SEE比APO +18%
指令归纳任务(24个): - SEE优于APE和MoP在87.5%任务上 - 优于PromptBreeder在91.7%任务上 - 优于EvoPrompt、OPRO、ZOPO在100%任务上
计算成本: - 相比SOTA方法减少 58.67% 计算成本
关键发现¶
- 联合优化远超分离优化:将指令和示例作为整体优化的增益远大于单独优化的总和
- 阶段化策略显著优于重复算子:传统GA反复使用mutation+crossover效率低下,SEE的四阶段策略更高效
- 算子互补性:Feedback算子负责快速提升,Fusion算子负责逃离局部最优,协同效果显著
- 跨模型通用性:在GPT-4、GPT-3.5、Claude 2、Llama3-70B、Mistral-7B等模型上均有效
- Hamming距离优于文本相似度:基于任务性能的距离度量更能捕捉候选的互补性
亮点与洞察¶
- 首个全面联合优化框架:能同时生成zero-shot和few-shot提示,不预设提示风格
- 元启发式优化的完美应用:将复杂优化领域的成熟方法论巧妙迁移到提示优化
- 算子分析的深度:通过5个维度的定量分析为每个算子找到最佳使用时机
- 性能向量+Hamming距离:简洁而有效的创新,解决了"如何衡量两个提示的差异"这一关键问题
- 实践指导价值:为自动提示优化提供了可直接采用的工业级解决方案
局限性¶
- 优化过程仍需多次LLM API调用,对于极端预算受限场景成本仍可观
- 算子的最优组合和超参数(如阶段容忍度)可能因任务而异
- 主要使用GPT-3.5-turbo进行优化实验,在其他作为优化器的LLM上的效果需进一步验证
- 未讨论在域外任务上的泛化能力
- Phase终止准则中的阈值需要手动设定
相关工作¶
- 指令优化:APE(Zhou et al., 2023)、APO(Pryzant et al., 2023)、OPRO(Yang et al., 2023)
- 进化式提示优化:PromptBreeder(Fernando et al., 2023)、EvoPrompt(Guo et al., 2023)
- 联合优化:AELP(Hsieh et al., 2023)、MoP(Wang et al., 2024)、EASE(Wu et al., 2024)
- 元启发式优化:遗传算法(GA)、粒子群优化(PSO)、差分进化(DE)
评分¶
- 创新性: ★★★★☆ — 将元启发式优化框架与LLM提示优化结合,四阶段设计巧妙
- 实用性: ★★★★★ — 大幅提升性能的同时降低近60%成本,工业价值极高
- 实验充分度: ★★★★★ — 35个任务、9个基线方法、多个模型验证
- 写作质量: ★★★★☆ — 框架描述系统清晰,算法伪代码完备
- 综合评分: ★★★★☆