MAGEO: From Experience to Skill — Multi-Agent Generative Engine Optimization via Reusable Strategy Learning¶

会议: ACL 2026
arXiv: 2604.19516
代码: https://github.com/Wu-beining/MAGEO
领域: 生成引擎优化 / 多智能体
关键词: 生成引擎优化, 多智能体框架, 策略复用, 引文忠实度, 可见性优化

一句话总结¶

本文将生成引擎优化（GEO）从逐实例启发式优化重构为策略学习问题，提出 MAGEO 多智能体框架——执行层由偏好/规划/编辑/评估四个智能体协作，学习层将验证有效的编辑模式蒸馏为可复用的引擎特定策略技能，并引入 Twin Branch 因果评估协议和 DSV-CF 双轴指标，在三个主流引擎上显著优于启发式基线。

研究背景与动机¶

领域现状：生成引擎（如 ChatGPT、Gemini）正在用引文锚定的答案替代搜索链接列表，重塑信息获取方式。内容创作者需要优化页面以在生成答案中获得引用——即生成引擎优化（GEO）。

现有痛点：(1) 现有 GEO 方法逐实例独立优化，无法积累或迁移有效策略；(2) 评估混淆了表面可见性和语义影响，允许曝光提升伴随错误引用；(3) 引擎偏好建模粗糙，缺乏引擎特定的策略学习。

核心矛盾：当前 GEO 困在逐实例试错中，而非演化为累积性的、技能构建式的过程。每次优化从零开始，无法利用过往成功经验。

本文目标：(1) 将 GEO 重构为策略学习问题；(2) 构建能积累和复用策略的多智能体框架；(3) 设计因果可归因的评估方法。

切入角度：双层架构——执行层负责协作优化，学习层负责从成功经验中提炼可复用的策略技能。

核心 idea：将验证有效的编辑模式抽象为结构化的策略技能（包含适用条件、编辑操作和效果评估），存入技能库并在新任务中检索复用。

方法详解¶

整体框架¶

MAGEO 双层架构：执行层由偏好智能体（分析引擎偏好）、规划智能体（制定修订策略）、编辑智能体（执行具体修改）和评估智能体（质量检查+忠实度门控）组成的迭代 Generate-Evaluate-Select 循环。学习层包含步骤级记忆（单会话内）和创作者级记忆（跨会话），形成策略技能库。Twin Branch 评估协议用于因果归因。

关键设计¶

Twin Branch 评估协议:
- 功能：因果归因内容编辑的效果，消除检索排名波动的干扰
- 核心思路：冻结检索列表，创建两个分支——基线分支保持原始文档，优化分支替换目标文档为优化版本。同一检索列表下对比两个分支的引擎响应，隔离编辑本身的效果
- 设计动机：黑盒引擎中检索和生成交织，不控制检索列表就无法区分"文档变好"和"检索排名变了"
策略技能库（Skill Bank）:
- 功能：将优化经验蒸馏为可复用的策略技能
- 核心思路：三阶段生命周期——发现（步骤级记忆记录每次编辑的正/负效果）、巩固（跨会话提取反复有效的模式为结构化技能，含引擎类型、场景、编辑操作、效果指标）、检索（新任务到来时按引擎+场景匹配技能）。容量限制+淘汰策略（按使用频率/新近度）保持可扩展性
- 设计动机：逐实例优化是浪费的——在同一引擎上的成功模式往往可复用。技能库实现了"从经验到技能"的跨越
DSV-CF 双轴评估指标:
- 功能：统一语义可见性和引文忠实度的评估
- 核心思路：\(S_{DSV-CF} = \lambda \cdot \bar{S}_{SSV} + (1-\lambda) \cdot \bar{S}_{ISI} - \gamma(1-AA)\)。SSV（表面语义可见性）聚合词级可见性、位置权威、引用突出度和主观印象。ISI（内在语义影响）评估归因准确性、响应忠实度、关键点覆盖和答案主导性。\(\gamma\) 控制错误引用惩罚
- 设计动机：现有指标要么只看曝光要么只看质量，不惩罚误引用。DSV-CF 确保可见性提升必须伴随准确归因

损失函数 / 训练策略¶

MAGEO 是基于 LLM 的多智能体推理框架，不涉及神经网络训练。使用 GPT-5.2 和 Gemini-3 Pro 作为基础引擎和评估引擎。MSME-GEO-Bench 基准覆盖 5 大领域 15 个子类的真实查询。

实验关键数据¶

主实验¶

三个主流引擎上的 DSV-CF 性能

方法	GPT 5.2 SSV	GPT 5.2 ISI	Gemini-3 SSV	Gemini-3 ISI
无优化	基线	基线	基线	基线
GEO (启发式)	中等提升	混合	中等提升	混合
RAID	提升	提升	提升	提升
MAGEO	最优	最优	最优	最优

消融实验¶

配置	效果	说明
Full MAGEO	最优	完整框架
w/o 技能库	下降	策略复用贡献显著
w/o 偏好智能体	下降	引擎特定建模重要
w/o 评估智能体	下降+忠实度崩溃	忠实度门控不可或缺
w/o Twin Branch	无法因果归因	评估可靠性下降

关键发现¶

引擎特定偏好建模和策略复用是两个最关键的贡献组件
评估智能体的忠实度门控至关重要——没有它优化可能通过误引用来提升表面曝光
策略技能在同一引擎内跨场景有良好的迁移性，但跨引擎迁移效果有限
传统 SEO 策略（关键词密集化）在生成引擎上无效甚至有害

亮点与洞察¶

从"逐实例试错"到"策略学习"的范式转变是 GEO 领域的重要理论贡献
Twin Branch 因果评估协议解决了黑盒引擎评估的根本难题
技能库的三阶段生命周期（发现→巩固→检索）设计可迁移到其他需要经验积累的智能体系统

局限与展望¶

策略技能的有效性可能随引擎更新而衰退
评估主要依赖 LLM-as-Judge，可能有系统性偏差
MSME-GEO-Bench 的查询多样性有限
未来可探索技能的自动更新和跨引擎迁移学习

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将 GEO 重构为策略学习问题，技能库和 Twin Branch 评估都是新贡献
实验充分度: ⭐⭐⭐⭐ 多引擎评估，但实际场景验证有限
写作质量: ⭐⭐⭐⭐ 框架设计清晰，指标定义完整
价值: ⭐⭐⭐⭐ 为 GEO 领域提供了可扩展的学习驱动范式