HPSS: Heuristic Prompting Strategy Search for LLM Evaluators¶

会议: ACL 2025
arXiv: 2502.13031
代码: https://github.com/thu-coai/HPSS
领域: llm_nlp
关键词: LLM评估, 提示策略搜索, 遗传算法, 启发式函数, 自动评估优化

一句话总结¶

整合 8 个影响 LLM 评估提示效果的关键因子（评分尺度、ICL 示例、评估标准、参考答案、CoT、AutoCoT、度量指标、组件顺序），提出基于遗传算法的启发式提示策略搜索方法 HPSS，在 12,960 种组合空间中高效找到最优提示策略，仅用基线 5% 的生成成本即超越 G-Eval 和 CloserLook。

研究背景与动机¶

LLM 评估的兴起：随着 LLM 生成内容质量的提升，使用 LLM 作为自动评估器（LLM-as-a-Judge）成为主流趋势，但评估效果高度依赖于提示设计。
提示因子的碎片化研究：现有工作（如 G-Eval、CloserLook）各自关注评估提示中的部分因子（如 CoT、评分标准），缺乏对所有关键因子的系统性整合。
组合爆炸问题：当同时考虑 8 个提示因子时，搜索空间高达 12,960 种组合，穷举搜索不可行。
成本与效率权衡：每次评估需要 LLM 推理调用，大规模搜索的计算成本极高，需要高效的搜索策略。
不同任务的最优策略差异：不同评估场景（摘要、对话、翻译等）的最优提示策略可能完全不同，需要自动化的策略适配。
缺乏统一框架：目前没有统一的框架将提示策略搜索与 LLM 评估有机结合。

方法详解¶

整体框架¶

HPSS 将 LLM 评估提示设计建模为一个组合优化问题：定义 8 个提示因子的离散搜索空间，利用遗传算法（Genetic Algorithm）配合启发式评估函数，在有限的计算预算内搜索最优提示策略组合。

关键设计 1：8 大提示因子体系¶

系统化地识别并整合了影响 LLM 评估质量的 8 个关键因子：

因子	说明	选项数
评分尺度（Scoring Scale）	1-5 / 1-10 / 连续分	3
ICL 示例（In-Context Examples）	有/无示例	2
评估标准（Criteria）	具体/抽象/无	3
参考答案（Reference）	有/无参考	2
CoT 推理（Chain-of-Thought）	启用/关闭	2
AutoCoT	自动生成推理步骤	2
评估度量（Metrics）	不同度量的选取	多种
组件顺序（Component Order）	因子在提示中的排列	多种排列

总搜索空间为 12,960 种组合。

关键设计 2：遗传算法搜索¶

借鉴遗传算法的进化机制进行策略搜索： - 初始化：随机采样一个初始种群（提示策略集合） - 选择：基于适应度（evaluation correlation）选择优秀个体 - 交叉：两个策略之间交换部分因子配置 - 变异：随机改变个体中的某个因子设置 - 迭代：重复选择-交叉-变异过程直到收敛

关键设计 3：启发式评估函数¶

设计了一个轻量级的启发式函数来快速评估每个提示策略的质量，避免每个候选策略都需要完整的 LLM 推理评估。启发式函数基于少量样本的评估相关性来估计策略潜力，大幅降低了搜索成本。

关键设计 4：成本感知搜索¶

在搜索过程中引入成本约束，确保总的 LLM 调用次数在预算范围内。通过启发式函数预筛选候选策略，只对高潜力策略进行完整评估。

损失函数¶

以评估分数与人工评分之间的相关系数（如 Spearman/Kendall 相关）作为优化目标，搜索使相关性最大化的提示策略组合。

实验关键数据¶

主实验：MT-Bench 上的评估质量¶

方法	与人工评分相关性	相对提升	生成成本（倍）
MT-Bench 基线	1.00x	—	1.00x
G-Eval	较高	—	~20x
CloserLook	较高	—	~20x
HPSS（本文）	最高	+29.4%	0.05x（5%）

消融实验：各因子的贡献¶

消融设置	影响
去除评分尺度搜索	性能显著下降
去除 CoT 因子	部分任务下降明显
去除组件顺序搜索	性能轻微下降
固定所有因子（单一策略）	大幅下降

关键发现¶

HPSS 相较于 MT-Bench 的默认提示策略实现了 29.4% 的相对性能提升，同时生成成本仅为 G-Eval 和 CloserLook 的约 5%。
不同评估任务的最优提示策略差异显著：例如摘要评估中 CoT 有帮助，但对话评估中有时反而有害。
组件顺序对评估质量的影响被严重低估——简单调整因子在提示中的排列顺序就能带来显著性能差异。
遗传算法通常在搜索空间 5-10% 的探索量内即可收敛到接近最优解。

亮点与洞察¶

系统性视角：首次将 8 个关键提示因子统一纳入搜索框架，避免了逐个调参的片面性。
极高的成本效率：5% 的生成成本就超越了 20 倍成本的竞争方法，展示了智能搜索策略相对于暴力方法的巨大优势。
可迁移性：搜索到的最优策略在不同 LLM 评估器之间展现了一定的迁移能力。
实用价值：直接解决了 LLM 评估中"如何设计提示"这个工程化难题，框架可即插即用。

局限性 / 可改进方向¶

搜索空间受限：当前 8 个因子是人工定义的，可能遗漏了其他重要因子（如提示语言风格、示例难度等级等）。
依赖初始种群：遗传算法的结果可能受初始随机种群影响，需要多次运行取最优。
任务泛化性：论文主要在几个标准评估基准上验证，在更开放的评估场景（如创意写作、代码评审）中的效果有待验证。
动态适应：搜索完成后策略是固定的，无法根据具体评估样本动态调整策略。
启发式函数精度：轻量级启发式函数可能在某些边缘情况下误判策略质量。

评分¶

新颖性: ⭐⭐⭐⭐ — 将遗传算法引入评估提示搜索是新颖且合理的
实验充分度: ⭐⭐⭐⭐ — 多基准验证 + 消融分析充分
写作质量: ⭐⭐⭐⭐ — 因子体系清晰，方法描述完整
价值: ⭐⭐⭐⭐⭐ — 高度实用，对 LLM 评估社区有直接价值