GuideBench: Benchmarking Domain-Oriented Guideline Following for LLM Agents¶

会议: ACL 2025
arXiv: 2505.11368
代码: https://github.com/Dlxxx/GuideBench
领域: LLM Agent
关键词: Guideline Following, Benchmark, Domain-Oriented Agent, Instruction Following, Rule Compliance

一句话总结¶

提出 GuideBench 基准测试，系统评估 LLM 在领域导向指南遵循方面的能力，覆盖 7 个任务类别共 1272 个实例，从规则遵循、规则更新鲁棒性和人类偏好对齐三个维度评估 18 个 LLM，发现当前模型在复杂领域规则遵循上仍有较大提升空间。

研究背景与动机¶

LLM 越来越多地被部署为自主 Agent，在运维、审计、流程优化等领域执行任务。现有的指令遵循（instruction following）基准测试主要聚焦于通用领域，依赖 LLM 内建的常识知识来评估模型能力。然而，领域导向的 Agent 面临的核心挑战与此截然不同：

领域规则（Domain Rules）：指南包含大量基于领域知识的规则，可能涉及组合、条件或嵌套关系，且可能与 LLM 的常识知识相冲突。例如，在电商场景下，两个产品是否"相同"可能由特定的商业规则定义，而非常识判断。
频繁更新（Frequent Updates）：领域指南会随着标准和法规的变化不断更新，LLM Agent 必须能适应这些变化。

如图 1 所示，同一个判断产品是否相同的任务，在指南规则 #1 → #2 的更新后，正确答案可能完全不同。当前缺乏针对这种场景的综合基准测试，阻碍了 LLM Agent 在领域部署中的有效评估和改进。

方法详解¶

整体框架¶

GuideBench 的构建和评估包含以下核心部分：

7 个任务类别：audit algorithm（审计算法）、price matching（价格匹配）、text relevance（文本相关性）、math（数学）、agent chatting（对话 Agent）、summarization（摘要）、hallucination detection（幻觉检测）
1272 个任务实例：通过自动合成 + 人工精修生成
三个评估维度：(i) 规则遵循、(ii) 规则更新鲁棒性、(iii) 人类偏好对齐
两种任务格式：多选题（agent chatting、summarization、hallucination detection）和问答题（audit algorithm、price matching、text relevance、math）

关键设计¶

数据构建流程¶

GuideBench 的数据构建分四个阶段：

1. Data Collection（数据收集）： - 确定 7 个对运营应用最有价值且研究不足的类别 - 从实际用例中手动提取 seed instructions - 派生领域特定指令和基本指南

2. Guideline Rule Generation（指南规则生成）： - 基于系统 prompt 提取关键元素，包括任务目标、输入输出规范和规则构建要求 - 每条规则由条件部分（触发条件）和操作部分（执行动作）组成 - 对规则进行分类和多样化，使用 GPT-4o 去重 + 人工审查 - 最终得到 537 条指南规则

3. Guideline Construction（指南组装）： - Random Selection：在同一领域内随机选择 \(k\) 条规则 - Diversity-based Selection：优先选择不同类型的规则确保多样性 - Semantic-based Selection：利用 LLM 根据整体指令选择语义连贯的规则 - 使用 LLM 修改规则以模拟指南更新场景

4. Multi-Response Generation（多回复生成）： - 将生成的指南作为 prompt 的一部分，让 LLM 生成上下文 - 组装问题并生成多选项答案

数据质量控制¶

LLM 过滤：在规则生成阶段消除重复和低质量规则
人类标注：由 AI 和计算机科学背景的领域专家执行全面审查，校正最优选项和参考答案

任务设计思路¶

每个任务包含四个组件： - Instruction：总体任务目标 - Guidelines：一组领域特定规则 - Context：相关文本段落 - Multiple Options（可选）：LLM 生成的多样化回应

损失函数 / 训练策略¶

GuideBench 是评估基准，不涉及模型训练。评估采用准确率作为核心指标，对多选题评估正确选项的选择准确率，对问答题评估生成答案与参考答案的一致性。

实验关键数据¶

主实验¶

18 个 LLM 的评估结果（Overall Accuracy %）：

模型	总体	Audit	Price	Text	Math	Agent	Summ.	Halluc.
Deepseek-R1	87.26	93.04	80.32	84.90	65.38	98.89	89.66	96.61
GPT-4o	86.48	96.52	84.84	81.25	13.46	100	82.76	94.92
Deepseek-V3	83.96	97.39	91.18	53.65	5.77	98.89	77.59	94.92
o1	79.17	73.48	76.24	79.69	48.08	92.78	81.03	92.37
GPT-4o*	80.90	94.78	74.66	80.21	7.69	95.56	68.97	94.07
Gemini2.5-pro-exp	80.90	90.00	75.79	85.94	44.23	80.00	87.93	93.22
Yi-1.5-6B	56.05	50.43	66.29	43.75	7.69	66.11	20.69	72.03
Mistral-7B	69.58	86.52	66.06	77.60	1.92	58.33	58.62	88.98
Gemma-3-4b-it	61.71	58.70	56.11	75.00	0	76.67	72.41	—

关键观察： - Math 任务最具挑战性：几乎所有模型在 Math 上的得分极低，GPT-4o 仅 13.46%，Deepseek-V3 更是只有 5.77%，只有 Deepseek-R1 达到 65.38%。 - Agent Chatting 相对容易：GPT-4o 在此任务上达到 100%。 - 小模型表现显著劣于大模型：Yi-1.5-6B 总体仅 56.05%。

关键发现¶

指南的关键作用：没有指南时模型只能依赖常识，可能导致与领域规则冲突的判断。实验证明移除指南后性能显著下降，说明外部领域知识对正确决策至关重要。
Chain-of-Thought 的收益：CoT 在复杂任务（如 math、audit algorithm）上带来显著提升，但在简单任务上收益有限。这说明对于需要多步推理的领域规则，显式思维链是必要的。
规则更新的鲁棒性：规则修改后，模型需要适应新规则而非依赖旧有认知。实验表明当前 LLM 在处理规则更新时普遍存在困难，尤其是当新规则与常识冲突时。
错误分析：
规则冲突错误：模型倾向于遵循内部常识而非外部规则
规则遗漏错误：在大量规则中忽略了某些关键规则
推理链断裂：在条件嵌套规则上容易出错

亮点与洞察¶

切中实际部署痛点：领域 Agent 最大的问题不是能不能理解指令，而是能不能严格按照不断更新的业务规则行事。GuideBench 精准抓住了这一问题。
系统化的评估体系：三维度评估（遵循、鲁棒性、偏好对齐）+ 两种任务格式（多选、问答）构成了全面的评估矩阵。
自动化数据构建流水线：从规则生成到质量验证的全流程自动化 pipeline，具有良好的可扩展性，可方便地增加新的任务领域。
深刻的启示：Math 任务上的极低得分暴露了 LLM 在严格逻辑推理方面的根本不足——即使是最强的推理模型 Deepseek-R1 也只有 65.38%。

局限性¶

领域覆盖有限：虽然涵盖 7 个类别，但现实中的领域远多于此，如医疗、法律、金融等专业性更强的领域未覆盖。
规则复杂度有限：537 条规则虽已不少，但实际业务系统中的规则可能多达数千条，且存在更复杂的依赖关系。
评估依赖 LLM：部分质量控制和评估环节依赖 GPT-4o，可能引入与被评估模型相关的偏差。
静态评估：未考虑 Agent 在多轮交互中逐步理解和应用规则的动态过程。

评分¶

维度	分数 (1-5)
创新性	3.5
技术深度	3.5
实验充分性	4.5
实用价值	4.5
写作质量	4
总体评分	4.0