What Makes a Good Natural Language Prompt?¶
会议: ACL 2025
arXiv: 2506.06950
代码: 有(待公开)
领域: LLM/NLP
关键词: prompt工程, prompt质量评估, 元分析, 认知负荷理论, prompt属性框架
一句话总结¶
通过元分析150+篇prompting相关论文和博客,提出一个以属性为中心、以人为中心的prompt质量评估框架,涵盖6个维度21个属性,并发现单属性增强往往比多属性组合更有效。
研究背景与动机¶
- 领域现状:prompt工程是LLM交互的核心,但对"什么是好的prompt"缺乏系统性共识。现有方法主要依赖以结果为中心的评估(任务性能),可能导致prompt面向机器优化而非人类理解。
- 现有痛点:各种prompting建议散落在不同论文和工业指南中(如OpenAI、Anthropic的prompting guidelines),没有统一的理论框架来系统理解、分析和比较这些策略。各属性在不同模型和任务上的效果分布极不均衡。
- 核心矛盾:属性间的交互效应未知——增强多个prompt属性是否总比增强单个更好?
- 本文要解决什么? (1)建立统一的prompt属性框架;(2)分析现有研究对各属性的支持程度;(3)研究属性间的相关性和组合效果。
- 切入角度:借鉴Grice的会话准则、认知负荷理论(Sweller)、教学设计理论(Gagné)等人文理论来构建框架。
- 核心idea一句话:从以结果为中心转向以属性为中心的prompt评估范式,提供系统化的prompt设计指导。
方法详解¶
整体框架¶
调研150+篇论文/博客 → 提取21个prompt属性并分6个维度 → 分析属性在不同模型/任务上的支持度分布 → 分析高质量prompt中属性的相关性 → 在推理任务上实验验证单/多属性增强效果。
关键设计¶
- 6维度21属性框架:
- I. 沟通与语言(4个): token数量、表达方式、交互参与度、礼貌性(受Grice会话准则启发)
- II. 认知(3个): 管理内在负荷、减少外在负荷、鼓励相关负荷(受认知负荷理论启发)
- III. 指令(5个): 目标(objectives)、外部工具、元认知、示例(demos)、奖励(rewards)
- IV. 逻辑与结构(2个): 结构逻辑、上下文逻辑
- V. 幻觉(2个): 幻觉意识、事实性与创造性
-
VI. 伦理(5个): 偏见、安全、隐私、可靠性、社会规范
-
元分析方法:
- 做什么:系统调研2022-2025年ACL/EMNLP/NAACL/ICLR/NeurIPS论文及工业博客
- 核心发现:属性支持在模型和任务间高度不均衡,如"Better demo(s)"在推理任务上支持最多(8篇),而"Better manner"几乎无人研究
-
大量研究空白:多个属性在多类任务上无任何支持论文
-
属性相关性分析与推理实验:
- 在高质量prompt集合上分析属性间的相关性,得出实用建议
- 在GSM8K等推理任务上实验:单属性增强(如仅增强"管理内在负荷"→CoT)往往效果最好,组合多个属性不总是更好
实验关键数据¶
主实验¶
| 属性组合 | GSM8K提升 | 说明 |
|---|---|---|
| 单属性(内在负荷/CoT) | 最高提升 | 最常见的有效增强 |
| 双属性组合 | 有时提升有时下降 | 取决于属性兼容性 |
| 多属性(3+) | 通常边际递减 | 过于复杂的prompt反而分散注意 |
关键发现¶
- 研究支持分布极不均衡:ChatGPT和LLaMA系列获得最多研究,Grice会话准则相关属性研究严重不足
- 属性增强效果因模型和任务而异——没有"银弹"式的通用prompt设计规则
- 在属性增强prompt上进行instruction tuning可以进一步提升推理能力
- "Better manner"和"Better societal norms"几乎无人系统研究,是重要research gap
亮点与洞察¶
- 框架本身是主要贡献:将散落的prompting知识统一到21个属性中,为prompt研究提供了共同语言
- "少即是多"发现很实用:单属性增强优于多属性堆砌,对实际prompt设计有直接指导意义
- 从认知科学引入框架(认知负荷理论、Grice准则)是跨学科的有益尝试
局限性 / 可改进方向¶
- 21个属性的独立性存疑,部分属性有重叠(如减少外在负荷 vs 清晰度)
- 属性评分标准的主观性较强,不同标注者可能产生不同评分
- 实验部分仅聚焦推理任务,其他任务类型(生成、理解)的验证不够
- 框架的可操作性有限——知道"应该提高X属性",但具体怎么做仍不够明确
相关工作与启发¶
- vs OpenAI/Anthropic Prompting Guide: 工业指南提供实用建议但无系统框架,本文将这些建议统一到理论框架中
- vs CoT/ToT等: 这些都是特定prompt技术,本文提供了更高层次的分类视角
评分¶
- 新颖性: ⭐⭐⭐ 框架新颖但更偏综述性质,方法创新有限
- 实验充分度: ⭐⭐⭐ 元分析覆盖广但实验验证集中在推理任务
- 写作质量: ⭐⭐⭐⭐ 组织清晰,图表信息量大
- 价值: ⭐⭐⭐⭐ 为prompt研究提供了有用的分析框架和术语