跳转至

📚 AI Paper Notes

What Makes a Good Natural Language Prompt?

What Makes a Good Natural Language Prompt?¶

会议: ACL 2025
arXiv: 2506.06950
代码: 有（待公开）
领域: LLM/NLP
关键词: prompt工程, prompt质量评估, 元分析, 认知负荷理论, prompt属性框架

一句话总结¶

通过元分析150+篇prompting相关论文和博客，提出一个以属性为中心、以人为中心的prompt质量评估框架，涵盖6个维度21个属性，并发现单属性增强往往比多属性组合更有效。

研究背景与动机¶

领域现状：prompt工程是LLM交互的核心，但对"什么是好的prompt"缺乏系统性共识。现有方法主要依赖以结果为中心的评估（任务性能），可能导致prompt面向机器优化而非人类理解。
现有痛点：各种prompting建议散落在不同论文和工业指南中（如OpenAI、Anthropic的prompting guidelines），没有统一的理论框架来系统理解、分析和比较这些策略。各属性在不同模型和任务上的效果分布极不均衡。
核心矛盾：属性间的交互效应未知——增强多个prompt属性是否总比增强单个更好？
本文要解决什么？ (1)建立统一的prompt属性框架；(2)分析现有研究对各属性的支持程度；(3)研究属性间的相关性和组合效果。
切入角度：借鉴Grice的会话准则、认知负荷理论（Sweller）、教学设计理论（Gagné）等人文理论来构建框架。
核心idea一句话：从以结果为中心转向以属性为中心的prompt评估范式，提供系统化的prompt设计指导。

方法详解¶

整体框架¶

调研150+篇论文/博客 → 提取21个prompt属性并分6个维度 → 分析属性在不同模型/任务上的支持度分布 → 分析高质量prompt中属性的相关性 → 在推理任务上实验验证单/多属性增强效果。

关键设计¶

6维度21属性框架:
I. 沟通与语言(4个): token数量、表达方式、交互参与度、礼貌性（受Grice会话准则启发）
II. 认知(3个): 管理内在负荷、减少外在负荷、鼓励相关负荷（受认知负荷理论启发）
III. 指令(5个): 目标(objectives)、外部工具、元认知、示例(demos)、奖励(rewards)
IV. 逻辑与结构(2个): 结构逻辑、上下文逻辑
V. 幻觉(2个): 幻觉意识、事实性与创造性
VI. 伦理(5个): 偏见、安全、隐私、可靠性、社会规范
元分析方法:
做什么：系统调研2022-2025年ACL/EMNLP/NAACL/ICLR/NeurIPS论文及工业博客
核心发现：属性支持在模型和任务间高度不均衡，如"Better demo(s)"在推理任务上支持最多(8篇)，而"Better manner"几乎无人研究
大量研究空白：多个属性在多类任务上无任何支持论文
属性相关性分析与推理实验:
在高质量prompt集合上分析属性间的相关性，得出实用建议
在GSM8K等推理任务上实验：单属性增强（如仅增强"管理内在负荷"→CoT）往往效果最好，组合多个属性不总是更好

实验关键数据¶

主实验¶

属性组合	GSM8K提升	说明
单属性(内在负荷/CoT)	最高提升	最常见的有效增强
双属性组合	有时提升有时下降	取决于属性兼容性
多属性(3+)	通常边际递减	过于复杂的prompt反而分散注意

关键发现¶

研究支持分布极不均衡：ChatGPT和LLaMA系列获得最多研究，Grice会话准则相关属性研究严重不足
属性增强效果因模型和任务而异——没有"银弹"式的通用prompt设计规则
在属性增强prompt上进行instruction tuning可以进一步提升推理能力
"Better manner"和"Better societal norms"几乎无人系统研究，是重要research gap

亮点与洞察¶

框架本身是主要贡献：将散落的prompting知识统一到21个属性中，为prompt研究提供了共同语言
"少即是多"发现很实用：单属性增强优于多属性堆砌，对实际prompt设计有直接指导意义
从认知科学引入框架（认知负荷理论、Grice准则）是跨学科的有益尝试

局限性 / 可改进方向¶

21个属性的独立性存疑，部分属性有重叠（如减少外在负荷 vs 清晰度）
属性评分标准的主观性较强，不同标注者可能产生不同评分
实验部分仅聚焦推理任务，其他任务类型（生成、理解）的验证不够
框架的可操作性有限——知道"应该提高X属性"，但具体怎么做仍不够明确

相关工作与启发¶

vs OpenAI/Anthropic Prompting Guide: 工业指南提供实用建议但无系统框架，本文将这些建议统一到理论框架中
vs CoT/ToT等: 这些都是特定prompt技术，本文提供了更高层次的分类视角

评分¶

新颖性: ⭐⭐⭐ 框架新颖但更偏综述性质，方法创新有限
实验充分度: ⭐⭐⭐ 元分析覆盖广但实验验证集中在推理任务
写作质量: ⭐⭐⭐⭐ 组织清晰，图表信息量大
价值: ⭐⭐⭐⭐ 为prompt研究提供了有用的分析框架和术语