MARS: Multi-Agent Adaptive Reasoning with Socratic Guidance for Automated Prompt Optimization¶

会议: AAAI 2026
arXiv: 2503.16874
代码: https://github.com/exoskeletonzj/MARS
领域: LLM Agent / 自动提示优化 / 多Agent协作
关键词: 自动提示优化, 苏格拉底对话, POMDP, Teacher-Critic-Student, 伪梯度

一句话总结¶

提出 MARS 五智能体框架做自动提示优化（APO）：Planner 生成任务特定的优化轨迹，Teacher-Critic-Student 三体进行苏格拉底对话式迭代精炼 prompt（模拟文本空间中的伪梯度下降），Target 执行并反馈，整体建模为 POMDP，在 17 个数据集上平均超越前 SOTA（PE2）6.04%（通用任务）和 6.42%（领域任务），且仅需 1-shot 训练数据。

研究背景与动机¶

领域现状：自动提示优化（APO）旨在克服手工 prompt 的认知偏差，自动探索更优的 prompt 设计空间。现有方法分两大类——生成-搜索法（APE/ProTeGi/PoisonedRAG：生成候选 prompt + 搜索最优）和元 prompt 法（OPRO/PE2：设计精细的 meta-prompt 指导优化）。
现有痛点：(a) 模板刚性：固定的元 prompt 模板无法动态适应不同任务需求，难以捕捉任务特定的优化方向；(b) 探索低效：生成-搜索方法只在初始候选附近做局部搜索，可能过早收敛或遗漏更好的 prompt 空间。
核心矛盾：prompt 优化的搜索空间是离散、高维、不可微的，无法直接用梯度下降；但又需要类似梯度的"方向性引导"来避免盲目搜索。
切入角度：受苏格拉底教学法启发——通过提问（而非直接告知）引导学生自主发现答案。将 prompt 优化过程建模为 POMDP，用多 Agent 协作模拟梯度式的迭代精炼。
核心 idea 一句话：五智能体 POMDP 框架——Planner 规划路径 + Teacher-Critic-Student 苏格拉底对话做伪梯度精炼 + Target 评估反馈。

方法详解¶

整体框架¶

五个 LLM Agent 协作，建模为 POMDP \(\langle \mathcal{S}, \mathcal{A}, \mathcal{T}, \mathcal{R}, \mathcal{O} \rangle\)： - Planner：分解优化目标为子目标序列 \(\mathbf{ST} = [st_1, \ldots, st_n]\) - Teacher：根据当前子目标和前一版 prompt 提出苏格拉底式问题 \(q_i\) - Critic：评估问题的质量和引导方向的合理性，给出反馈 \(c_i\) - Student：综合问题和批评，更新内部状态并生成新版 prompt \(p_i\) - Target：在下游任务上执行 prompt 并返回性能奖励 \(\mathcal{R}\)

关键设计¶

Planner — 优化轨迹规划:
做什么：将抽象的"优化 prompt"目标分解为具体的、有序的子目标序列
核心思路：\(\mathbf{ST} = \pi_{\text{plan}}(g, x, p_0)\)，引入隐变量 \(z\) 建模任务语义，通过 \(\arg\max_{\mathbf{ST}} \mathbb{E}_{z \sim q(z|g,x)}[\log P(\mathbf{ST}|z, p_0)]\) 生成结构化计划
设计动机：静态 meta-prompt 是"一刀切"的，Planner 为每个任务定制优化路径，实现自适应
Teacher-Critic-Student 苏格拉底对话:
做什么：通过迭代的问答-批评-修改循环精炼 prompt
核心思路：每步 \(i\)——Teacher 提问 \(q_i = \pi_t(st_i, p_{i-1}, \mathcal{H}_{<i})\)（引导 Student 思考特定方向）→ Critic 评估 \(c_i = \pi_c(q_i, \mathcal{H}_{<i})\)（确保问题质量和方向正确） → Student 响应更新 \(p_i = \pi_s((q_i, c_i), p_{i-1}, \mathcal{H}_{<i})\)。所有 Agent 都有对话历史 \(\mathcal{H}_{<i}\) 的完整上下文
设计动机：模拟离散 prompt 空间中的"伪梯度"——Teacher 的问题相当于梯度方向，Critic 确保方向正确，Student 执行"步进"。Proposition 1 形式证明：累计改进有下界 \(\geq \sum_i (\bar{A}_i - \sigma^2/2\lambda)\)
自适应终止:
做什么：基于边际收益自动决定何时停止优化
核心思路：\(\Delta\mathcal{R}^{(t)} = \mathcal{R}^{(t)} - \mathcal{R}^{(t-1)} > \delta\) 且 \(t < I\) 则继续。Proposition 2 证明 Lipschitz 条件下奖励变化有界，小步长时收敛
设计动机：避免过度精炼浪费计算资源

训练效率亮点¶

仅需 1 个训练样本做优化——Planner 从单个示例即可推断任务结构和语义，这是因为 APO 的核心是理解"任务是什么"而非记忆"数据是什么"。

实验关键数据¶

主实验 — 通用任务（BBH + MMLU，6+6=12 个任务）¶

方法	BBH 平均	MMLU 平均	总平均
Origin (原始 prompt)	53.71	76.39	64.95
CoT (Zero-Shot)	61.40	78.20	69.79
PE2 (前 SOTA)	69.45	88.44	78.81
MARS	79.52	90.94	85.11

主实验 — 领域任务（C-Eval + LSAT + GSM8K，5 个任务）¶

方法	C-Eval	GSM8K	LSAT-AR	平均
PE2	66.47	83.46	34.50	69.39
MARS	77.13	89.22	38.42	75.81

消融实验¶

配置	BBH 平均	MMLU 平均	变化
MARS (完整)	79.52	90.94	—
w/o Socratic	68.28	—	-11.31
w/o Planner	72.82	—	-6.77
w/o Critic	76.04	—	-3.55

关键发现¶

MARS 在所有 17 个数据集上全面 SOTA：通用任务超前 SOTA（PE2）6.04%，领域任务超 6.42%
苏格拉底对话机制贡献最大：去掉后平均掉 11.31%，远大于 Planner（-6.77%）和 Critic（-3.55%）
1-shot 训练已足够：0-shot 平均 77.77%，1-shot 79.59%，3-shot 79.81%——增加训练数据的边际收益极小
收敛快：通常 5 轮优化即收敛（vs OPRO 10 轮仍未收敛），大幅节省推理计算
跨模型泛化：在 DeepSeek-V2.5 上优化的 prompt 直接用于 GPT-4o 仍有效，说明优化出的 prompt 是模型无关的
推理时 scaling law：在相同 token 消耗下，MARS 性能最高；达到相同性能水平，MARS 消耗最少

亮点与洞察¶

将 APO 建模为 POMDP是理论上的关键创新——Student 的内部推理状态是隐状态，Teacher/Critic 的交互是动作，prompt 是观测，任务性能是奖励，形成完整的数学框架
苏格拉底教学法→伪梯度下降的类比非常精妙——Teacher 提问=梯度方向，Critic 评估=梯度校正，Student 更新=参数更新，形式证明了累计改进的下界
仅需 1 个训练样本是极其亮眼的结果——说明 APO 的本质是"理解任务规范"而非"拟合训练数据"，Planner 的任务理解能力是核心
附录提供了所有 17 个任务的最终优化 prompt，直接可复用

局限性 / 可改进方向¶

五个 Agent 的推理开销较大（每轮需要 5 次 LLM 调用），对计算预算敏感
依赖 DeepSeek-V2.5 / GPT-4o 作为 Agent backbone，小模型可能无法胜任 Teacher/Planner 角色
POMDP 的隐状态转移 \(\mathcal{T}\) 实际上无法精确建模（是 LLM 隐式实现的），理论分析的假设（Lipschitz 连续、有界方差）在实际中可能不严格成立
只在文本分类/QA/数学任务上验证，缺少生成任务（如摘要、翻译）的评估
Planner 生成的子目标序列是否真的比手动设计更优，缺少与人类 expert prompt engineer 的对比

评分¶

新颖性: ⭐⭐⭐⭐⭐ POMDP建模+苏格拉底五Agent框架是APO领域的范式创新，理论和方法都很完整
实验充分度: ⭐⭐⭐⭐⭐ 17个数据集+消融+收敛分析+跨模型验证+1-shot分析+推理scaling law，极其全面
写作质量: ⭐⭐⭐⭐⭐ POMDP形式化严谨，Proposition证明完整，附录极其详出（所有prompt+完整优化过程）
价值: ⭐⭐⭐⭐⭐ 1-shot即达SOTA的APO方法有极高实用价值，多Agent苏格拉底范式可广泛迁移