SEE: Strategic Exploration and Exploitation for Cohesive In-Context Prompt Optimization¶

会议: ACL 2025
arXiv: 2402.11347
领域: Prompt Optimization / LLM Efficiency
关键词: Prompt Optimization, Metaheuristic Optimization, Exploration-Exploitation, In-Context Learning, Cohesive Prompt

一句话总结¶

本文提出 SEE 框架，首次将指令（instruction）和示例（examples）作为整体进行联合优化，采用元启发式优化原则设计四阶段探索-利用策略，在35个基准任务上实现平均13.94%的准确率提升并降低58.67%的计算成本。

研究背景与动机¶

手动设计高质量的LLM提示需要大量人力和专业知识，自动提示优化至关重要
现有方法的核心局限——指令与示例分离优化：
一类工作（APE、OPRO、APO）专注于zero-shot场景下的指令优化
另一类工作聚焦于few-shot示例选择（给定固定指令）
两者忽略了指令与示例的协同性（cohesiveness），分别优化导致次优性能
联合优化面临两大挑战：
性能挑战：高维离散空间中如何避免局部最优？
效率挑战：如何在合理计算成本下快速收敛？

方法详解¶

整体框架¶

SEE基于元启发式优化框架，核心思想是将提示优化视为高维组合优化问题，通过四个阶段交替进行探索（exploration）和利用（exploitation）：

Phase 0 - 全局初始化：生成多样化初始候选池 Phase 1 - 局部反馈优化：快速将每个候选推向其局部最优 Phase 2 - 全局融合操作：跨候选融合特征以逃离局部最优 Phase 3 - 局部语义操作：最后一轮精细打磨，加速收敛

关键设计¶

五种LLM算子：

全局算子（探索型）： 1. Lamarckian算子：从输入/输出对"逆向工程"出任务指令，引入多样性 2. EDA算子：从一组候选中学习分布，生成新候选（可排序 → EDA+I） 3. Crossover算子：组合两个父代的特征生成子代（可差异化选择 → CR+D）

局部算子（利用型）： 4. Feedback算子：使用LLM "审查员"分析错误并生成改进策略，"改进者"执行修正（收敛速度最快，但API成本较高） 5. Semantic算子：在保持语义不变的前提下进行词汇层面修改（成本低、稳定）

两个创新设计：

基于性能向量的Hamming距离：
不使用余弦文本相似度，而是构建"性能向量"（如[1,1,1,0,0]表示在5个dev样本上的对错情况）
用Hamming距离衡量候选差异，确保融合操作选择互补性强的父代
自适应阶段终止准则：
性能增益：当算子不再带来提升时切换到下一阶段
算子容忍度：全局算子允许更长时间无即时提升（因其长期探索价值），局部算子容忍度低

初始化策略： - SEE-io-pair：从任务输入/输出对出发，用Lamarckian算子逆向工程指令 - SEE-example：从专家构建的提示出发，用Semantic算子增加多样性

实验关键数据¶

主实验¶

BBH任务（8个）： | 方法 | 平均准确率 | |------|----------| | OPRO | 基线 | | EvoPrompt | 基线+0.08 | | AELP | 基线+0.72 | | SEE-io-pair | 基线+13.21 | | SEE-example | 基线+13.94 |

代表性任务表现： - Causal Judgement: SEE-example 89.09% vs AELP 77.77% - Color Reasoning: SEE-example 86.29% vs AELP 73.49% - Salient Translation: SEE-example 80.64% vs AELP 68.14%

检测任务（3个）： - Ethos: SEE比APO +1% - Sarcasm: SEE比APO +4% - Liar（复杂任务）: SEE比APO +18%

指令归纳任务（24个）： - SEE优于APE和MoP在87.5%任务上 - 优于PromptBreeder在91.7%任务上 - 优于EvoPrompt、OPRO、ZOPO在100%任务上

计算成本： - 相比SOTA方法减少 58.67% 计算成本

关键发现¶

联合优化远超分离优化：将指令和示例作为整体优化的增益远大于单独优化的总和
阶段化策略显著优于重复算子：传统GA反复使用mutation+crossover效率低下，SEE的四阶段策略更高效
算子互补性：Feedback算子负责快速提升，Fusion算子负责逃离局部最优，协同效果显著
跨模型通用性：在GPT-4、GPT-3.5、Claude 2、Llama3-70B、Mistral-7B等模型上均有效
Hamming距离优于文本相似度：基于任务性能的距离度量更能捕捉候选的互补性

亮点与洞察¶

首个全面联合优化框架：能同时生成zero-shot和few-shot提示，不预设提示风格
元启发式优化的完美应用：将复杂优化领域的成熟方法论巧妙迁移到提示优化
算子分析的深度：通过5个维度的定量分析为每个算子找到最佳使用时机
性能向量+Hamming距离：简洁而有效的创新，解决了"如何衡量两个提示的差异"这一关键问题
实践指导价值：为自动提示优化提供了可直接采用的工业级解决方案

局限性¶

优化过程仍需多次LLM API调用，对于极端预算受限场景成本仍可观
算子的最优组合和超参数（如阶段容忍度）可能因任务而异
主要使用GPT-3.5-turbo进行优化实验，在其他作为优化器的LLM上的效果需进一步验证
未讨论在域外任务上的泛化能力
Phase终止准则中的阈值需要手动设定

评分¶

创新性: ★★★★☆ — 将元启发式优化框架与LLM提示优化结合，四阶段设计巧妙
实用性: ★★★★★ — 大幅提升性能的同时降低近60%成本，工业价值极高
实验充分度: ★★★★★ — 35个任务、9个基线方法、多个模型验证
写作质量: ★★★★☆ — 框架描述系统清晰，算法伪代码完备
综合评分: ★★★★☆