M2-Miner: Multi-Agent Enhanced MCTS for Mobile GUI Agent Data Mining¶

会议: ICLR 2026
arXiv: 2602.05429
代码: 即将公开
领域: LLM Agent
关键词: GUI Agent, 数据挖掘, 蒙特卡洛树搜索, 多智能体协作, 意图回收

一句话总结¶

提出 M2-Miner，首个基于 MCTS 的自动化移动 GUI 代理数据挖掘框架，通过 InferAgent/OrchestraAgent/JudgeAgent 三代理协作、意图回收策略和渐进式模型闭环训练，以 18 倍低于人工标注的成本生成 SOTA 质量的数据。

研究背景与动机¶

GUI 代理（操控图形界面完成用户意图的智能体）的训练严重依赖高质量的意图-轨迹（intent-trajectory）数据。现有数据集面临三大挑战：

高构建成本：手动标注每条数据需数小时（如 Android Control 88k 图片花费 ~$31,662）
数据质量差：手动标注和自动挖掘数据常含冗余步骤、模糊意图描述和偏差操作路径
数据丰富度低：现有数据集仅记录单一成功路径（flat 结构），意图单调，缺乏描述信息

现有自动挖掘方法的不足：

AgentQ：基于 MCTS 但仅支持 HTML 解析的 Web 环境，不支持移动端视觉场景
OS-Genesis：基于规则的逐步交互+逆任务合成，缺乏结构化探索
直接应用原始 MCTS 到 GUI 数据挖掘效率极低：随机扩展和基于 rollout 的奖励计算代价过高

方法详解¶

整体框架¶

M2-Miner 基于 MCTS 四阶段循环（选择→扩展→模拟→反向传播），引入三代理协作增强扩展和模拟阶段。

意图-轨迹树形式化为 $\mathcal{T} = (\mathcal{V}, \mathcal{A}, \mathcal{P}, \mathcal{I})$：

$\mathcal{V}$：节点集合，每个节点对应 GUI 状态
$\mathcal{A}$：可执行动作集（点击、滑动、输入）
$\mathcal{P}$：边集合（状态转移关系）
$\mathcal{I}$：用户意图集合

每个节点 $v$ 定义为五元组 $(\mathit{img}_v, \mathit{meta}_v, Q_v, N_v, \mathit{stat}_v)$。

关键设计¶

三代理协作框架：

InferAgent：在扩展阶段推断最可能达成目标意图的动作。使用多个不同 MLLM 生成 $K$ 个候选动作，确保多样性。加入历史动作到提示中防止重复生成。
OrchestraAgent：合并等价动作并按置信度排序。通过多选题方式进行 $K-1$ 次查询得到排序后的动作队列，排序后的动作被赋予递减的初始 UCT 值。
JudgeAgent：替代成本高昂的 rollout 模拟。分析新扩展节点的 GUI 截图，判断任务完成状态并计算奖励：

\[r_{\text{intermediate}} = \frac{\exp(logits_{\text{valid}})}{\exp(logits_{\text{valid}}) + \exp(logits_{\text{invalid}})}\]

使用 softmax 归一化 MLLM 输出的 logits 为 [0,1] 范围的奖励值。节点 Q 值更新：

\[Q_i = \frac{Q_{i-1} \times N_{i-1} + R_i}{N_{i-1} + 1}, \quad N_i = N_{i-1} + 1\]

意图回收策略（Intent Recycling）：

核心观察：MCTS 树中除了原始意图的成功路径外，其他路径也可能对应有价值的新意图。例如在地图应用中，原始意图是查询路线，但误点"叫车"按钮产生了额外的叫车意图轨迹。

流程：

对每棵完成的树，考虑从根到每个节点的路径
使用 MLLM 构建意图回收过滤器评估轨迹质量
对通过过滤的轨迹，使用 MLLM 生成匹配的新意图
由 JudgeAgent 验证轨迹最后节点状态是否为成功

训练策略¶

渐进式模型闭环训练（Model-in-the-Loop）：

预热阶段：用公开数据集训练 InferAgent 和 JudgeAgent 获得基础能力
Stage 1（基础意图）：收集热门应用主页截图→生成常用服务意图→条件改写扩展→挖掘轨迹→训练
Stage 2（复杂意图）：对 Stage 1 意图添加条件和功能组合（如"订酒店"→"订酒店+订机票"）→挖掘→训练
Stage 3（回收意图）：对所有历史树应用意图回收策略→丰富轨迹→训练

基础模型：InferAgent 和 JudgeAgent 用 Qwen2.5-VL-7B，OrchestraAgent 用 Qwen2.5-VL-72B。

实验关键数据¶

主实验：GUI 代理性能¶

模型	AC-Low TP/SR	AC-High TP/SR	AITZ TP/SR	CAGUI TP/SR
GPT-4o	74.3/19.4	66.3/20.8	70.0/35.3	3.67/3.67
Qwen2.5-VL-7B	94.1/85.0	75.1/62.9	78.4/54.6	74.2/55.2
UI-TARS-7B*	98.0/90.8	83.7/72.5	80.4/65.8	88.6/70.0
OS-Genesis-7B	90.7/74.2	66.2/44.5	20.0/8.5	38.1/14.5
GUI-Owl-7B	93.8/90.0	81.5/72.8	78.9/65.1	80.0/59.2
M2-Miner-7B	97.5/93.5	81.8/72.9	81.3/69.4	88.8/70.2

M2-Miner-7B 在几乎所有基准上达到 SOTA，在 SR 指标上一致超越使用大规模私有数据的 UI-TARS-7B。

数据效率对比¶

数据集	图片数	自动化	适合RL	成本(USD)	每图成本
Android Control	88k	✗	✗	$31,662	$0.36
AMEX	38k	✗	✗	$13,680	$0.36
GUI-Odyssey	119k	✗	✗	$42,816	$0.36
M2-Miner-Agent	20k	✓	✓	$466	$0.02

每图成本仅 $0.02，是手动标注的 1/18。

消融实验¶

多代理框架效率：

与仅使用 InferAgent 的原始 MCTS 相比，M2-Miner 的效率提升随任务复杂度指数增长，在任务长度为 9 时达到 64× 加速。

模型闭环训练：

阶段	TP	SR
Warm-up	85.0	64.2
+Stage 1 (基础意图)	86.5	67.3
+Stage 2 (复杂意图)	87.6	69.1
+Stage 3 (回收意图)	88.2	69.9

数据结构消融：

设置	TP	SR
仅动作	85.2	66.8
动作+描述	88.2	69.9
动作+描述+偏好	88.8	70.2

关键发现¶

自动挖掘数据质量超越人工标注：M2 数据的 DQA 高于 Android Control 和 AITZ
意图回收显著丰富多样性：t-SNE 可视化显示回收意图覆盖更广的语义空间
描述和偏好数据有额外价值：MCTS 树中保留的语义描述和偏好信号对训练有益
在未见场景中泛化：CAGUI 无训练数据，M2-Miner 将 Qwen2.5-VL-7B 的 SR 从 55.2% 提升至 70.2%

亮点与洞察¶

MCTS 首次用于移动 GUI 数据挖掘：通过树结构完整记录探索过程，远比 flat 结构信息丰富
过程奖励替代结果奖励：JudgeAgent 的中间节点奖励设计避免了昂贵的 rollout，是效率提升的关键
意图回收的巧妙性：将 MCTS 探索中的"失败路径"变废为宝，这一洞察非常优雅
成本效益极高：$466 挖掘的数据训练出的模型超越了 $42,816 人工标注数据训练的模型
偏好数据的自然获取：MCTS 树天然包含正例（成功路径）和负例（失败分支），可直接构建偏好对

局限性 / 可改进方向¶

当前仅在移动端验证，Web 环境和桌面端的扩展需要额外适配
OrchestraAgent 依赖 72B 模型，挖掘成本虽低于人工但 API 费用仍可观
意图回收的质量依赖 MLLM 的意图生成能力，可能引入不准确的意图描述
渐进训练策略需要多轮挖掘-训练迭代，整体流程时间较长
评估主要基于静态基准，缺乏在真实用户场景中的评估

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个 MCTS+多代理的 GUI 数据挖掘框架，意图回收策略原创性强
技术深度: ⭐⭐⭐⭐ — 三代理设计合理，过程奖励替代 rollout 有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ — 5 个基准、成本分析、多维消融、质量评估
写作质量: ⭐⭐⭐⭐ — 结构完整，图示清晰
实用性: ⭐⭐⭐⭐⭐ — 极低成本实现 SOTA，对 GUI 代理社区有直接推动作用
综合评分: ⭐⭐⭐⭐⭐ (9/10)