跳转至

HPSS: Heuristic Prompting Strategy Search for LLM Evaluators

会议: ACL 2025
arXiv: 2502.13031
代码: https://github.com/thu-coai/HPSS
领域: llm_nlp
关键词: LLM评估, 提示策略搜索, 遗传算法, 启发式函数, 自动评估优化

一句话总结

整合 8 个影响 LLM 评估提示效果的关键因子(评分尺度、ICL 示例、评估标准、参考答案、CoT、AutoCoT、度量指标、组件顺序),提出基于遗传算法的启发式提示策略搜索方法 HPSS,在 12,960 种组合空间中高效找到最优提示策略,仅用基线 5% 的生成成本即超越 G-Eval 和 CloserLook。

研究背景与动机

  1. LLM 评估的兴起:随着 LLM 生成内容质量的提升,使用 LLM 作为自动评估器(LLM-as-a-Judge)成为主流趋势,但评估效果高度依赖于提示设计。
  2. 提示因子的碎片化研究:现有工作(如 G-Eval、CloserLook)各自关注评估提示中的部分因子(如 CoT、评分标准),缺乏对所有关键因子的系统性整合。
  3. 组合爆炸问题:当同时考虑 8 个提示因子时,搜索空间高达 12,960 种组合,穷举搜索不可行。
  4. 成本与效率权衡:每次评估需要 LLM 推理调用,大规模搜索的计算成本极高,需要高效的搜索策略。
  5. 不同任务的最优策略差异:不同评估场景(摘要、对话、翻译等)的最优提示策略可能完全不同,需要自动化的策略适配。
  6. 缺乏统一框架:目前没有统一的框架将提示策略搜索与 LLM 评估有机结合。

方法详解

整体框架

HPSS 将 LLM 评估提示设计建模为一个组合优化问题:定义 8 个提示因子的离散搜索空间,利用遗传算法(Genetic Algorithm)配合启发式评估函数,在有限的计算预算内搜索最优提示策略组合。

关键设计 1:8 大提示因子体系

系统化地识别并整合了影响 LLM 评估质量的 8 个关键因子:

因子 说明 选项数
评分尺度(Scoring Scale) 1-5 / 1-10 / 连续分 3
ICL 示例(In-Context Examples) 有/无示例 2
评估标准(Criteria) 具体/抽象/无 3
参考答案(Reference) 有/无参考 2
CoT 推理(Chain-of-Thought) 启用/关闭 2
AutoCoT 自动生成推理步骤 2
评估度量(Metrics) 不同度量的选取 多种
组件顺序(Component Order) 因子在提示中的排列 多种排列

总搜索空间为 12,960 种组合。

关键设计 2:遗传算法搜索

借鉴遗传算法的进化机制进行策略搜索: - 初始化:随机采样一个初始种群(提示策略集合) - 选择:基于适应度(evaluation correlation)选择优秀个体 - 交叉:两个策略之间交换部分因子配置 - 变异:随机改变个体中的某个因子设置 - 迭代:重复选择-交叉-变异过程直到收敛

关键设计 3:启发式评估函数

设计了一个轻量级的启发式函数来快速评估每个提示策略的质量,避免每个候选策略都需要完整的 LLM 推理评估。启发式函数基于少量样本的评估相关性来估计策略潜力,大幅降低了搜索成本。

关键设计 4:成本感知搜索

在搜索过程中引入成本约束,确保总的 LLM 调用次数在预算范围内。通过启发式函数预筛选候选策略,只对高潜力策略进行完整评估。

损失函数

以评估分数与人工评分之间的相关系数(如 Spearman/Kendall 相关)作为优化目标,搜索使相关性最大化的提示策略组合。

实验关键数据

主实验:MT-Bench 上的评估质量

方法 与人工评分相关性 相对提升 生成成本(倍)
MT-Bench 基线 1.00x 1.00x
G-Eval 较高 ~20x
CloserLook 较高 ~20x
HPSS(本文) 最高 +29.4% 0.05x(5%)

消融实验:各因子的贡献

消融设置 影响
去除评分尺度搜索 性能显著下降
去除 CoT 因子 部分任务下降明显
去除组件顺序搜索 性能轻微下降
固定所有因子(单一策略) 大幅下降

关键发现

  1. HPSS 相较于 MT-Bench 的默认提示策略实现了 29.4% 的相对性能提升,同时生成成本仅为 G-Eval 和 CloserLook 的约 5%。
  2. 不同评估任务的最优提示策略差异显著:例如摘要评估中 CoT 有帮助,但对话评估中有时反而有害。
  3. 组件顺序对评估质量的影响被严重低估——简单调整因子在提示中的排列顺序就能带来显著性能差异。
  4. 遗传算法通常在搜索空间 5-10% 的探索量内即可收敛到接近最优解。

亮点与洞察

  1. 系统性视角:首次将 8 个关键提示因子统一纳入搜索框架,避免了逐个调参的片面性。
  2. 极高的成本效率:5% 的生成成本就超越了 20 倍成本的竞争方法,展示了智能搜索策略相对于暴力方法的巨大优势。
  3. 可迁移性:搜索到的最优策略在不同 LLM 评估器之间展现了一定的迁移能力。
  4. 实用价值:直接解决了 LLM 评估中"如何设计提示"这个工程化难题,框架可即插即用。

局限性 / 可改进方向

  1. 搜索空间受限:当前 8 个因子是人工定义的,可能遗漏了其他重要因子(如提示语言风格、示例难度等级等)。
  2. 依赖初始种群:遗传算法的结果可能受初始随机种群影响,需要多次运行取最优。
  3. 任务泛化性:论文主要在几个标准评估基准上验证,在更开放的评估场景(如创意写作、代码评审)中的效果有待验证。
  4. 动态适应:搜索完成后策略是固定的,无法根据具体评估样本动态调整策略。
  5. 启发式函数精度:轻量级启发式函数可能在某些边缘情况下误判策略质量。

相关工作与启发

  • G-Eval:使用 CoT 和多步评估提升 LLM 评分质量,但未系统搜索提示因子组合。
  • CloserLook:深入分析了评分标准和参考答案对评估的影响,但采用固定策略。
  • Auto-Arena:通过 LLM 对战方式进行评估,与提示策略搜索是互补的方向。
  • 启发:该工作启示我们,在所有涉及 LLM 提示设计的场景中(不仅限于评估),系统化的因子分析 + 高效搜索可能都比手工调优更有效。

评分

  • 新颖性: ⭐⭐⭐⭐ — 将遗传算法引入评估提示搜索是新颖且合理的
  • 实验充分度: ⭐⭐⭐⭐ — 多基准验证 + 消融分析充分
  • 写作质量: ⭐⭐⭐⭐ — 因子体系清晰,方法描述完整
  • 价值: ⭐⭐⭐⭐⭐ — 高度实用,对 LLM 评估社区有直接价值