ReflecTool: Towards Reflection-Aware Tool-Augmented Clinical Agents¶

会议: ACL 2025
arXiv: 2410.17657
代码: https://github.com/BlueZeros/ReflecTool
领域: LLM Agent
关键词: 工具增强Agent, 临床智能体, 反思学习, 长期记忆, 医疗AI

一句话总结¶

ReflecTool 提出了一个反思感知的工具增强临床 Agent 框架，通过优化阶段积累成功轨迹和工具级经验，推理阶段检索相似案例并用验证器改进工具使用，在涵盖 18 个任务的 ClinicalAgent Bench 上超越纯 LLM 10+ 分、超越已有 Agent 方法 3 分。

输入是临床任务（问题 + 多种格式的输入数据）→ 工具箱包含 15 种临床工具 → 两阶段框架：优化阶段在小规模训练集上试错积累经验 → 推理阶段检索相似案例 + 工具级验证 → 输出答案。基于 ReAct 风格的多步推理。

ClinicalAgent Bench (CAB):
做什么：提供全面的临床 Agent 评测框架
核心思路：涵盖 5 个维度（知识推理、多模态、数值分析、数据理解、可信度）共 18 个任务，配套 15 种临床工具
设计动机：现有医疗 Agent benchmark 只覆盖单一场景，无法全面评价 Agent 的临床能力
Optimization Stage (优化阶段):
做什么：在小规模样本上积累工具使用经验和成功案例
核心思路：Agent 先尝试解题生成轨迹 \(\mathcal{C}_1\)，对比 ground truth 自反思生成改进建议 \(\mathcal{S}\)，据此重新产生轨迹 \(\mathcal{C}_2\)。若成功则存入长期记忆 \(\mathcal{M}\)，并对比两轨迹提取工具级经验 \(\mathcal{E}\)
设计动机：直接使用工具效果差，通过「试错→反思→积累」让 Agent 学会领域工具的正确用法
Inference Stage with Tool-wise Reflection (推理阶段):
做什么：利用长期记忆和工具级经验来指导推理
核心思路：(1) BM25 检索相似成功案例作为 few-shot 示范 (2) 两种验证方式：Iterative Refinement（迭代精炼动作直到稳定或达到上限）和 Candidate Selection（采样多个候选动作，由验证器选最优）
设计动机：Iterative Refinement 适合弱模型（逐步改进），Candidate Selection 适合强模型（多方案择优），互补提高适用性

无需微调模型参数。优化阶段仅需很少的标注样本（实验中~200个），通过 LLM 自反思生成经验，存入外部记忆。

模型 / 方法	指标(Avg)	对比	提升
Qwen2-7B (纯LLM)	38.01	-	-
ReflecTool (Qwen2-7B, IR)	49.37	vs 纯LLM	+11.36
Reflexion (Qwen2-72B)	56.37	最强基线	-
ReflecTool (Qwen2-72B, CS)	59.66	vs Reflexion	+3.29