Towards GUI Agents: Vision-Language Diffusion Models for GUI Grounding¶

会议: CVPR 2026
arXiv: 2603.26211
代码: 无
领域: GUI Agent / 视觉语言模型
关键词: GUI Grounding, 离散扩散模型, LLaDA-V, 混合掩码, 界面理解

一句话总结¶

首次系统研究离散扩散视觉语言模型（DVLM）在 GUI Grounding 中的应用，将 LLaDA-V 适配为单步动作预测，并提出混合掩码调度（线性+确定性）以捕获边界框坐标间的几何层次依赖，在 Web/Desktop/Mobile 界面上展示了扩散模型作为 GUI Agent 基础的可行性。

研究背景与动机¶

GUI Grounding 是构建多模态 GUI Agent 的基础能力：给定自然语言指令和界面截图，模型需要定位目标元素并生成对应动作。这是实现软件操作和数字工作流自动化的关键。

当前主流方案的局限： - 自回归（AR）视觉语言模型（如 Qwen2.5-VL、CogAgent、UI-TARS）主导了 GUI Grounding 研究 - AR 模型继承了固有的架构限制：顺序解码和单向注意力 - 这些限制使得模型在生成坐标 token 时无法利用后续上下文信息

离散扩散模型的潜力： - LLaDA-V、MMaDA 等离散扩散视觉语言模型（DVLM）在多模态理解和推理中表现出色 - DVLM 具有三个独特优势：双向注意力、并行 token 生成、迭代精炼 - 但它们在 GUI Grounding 中的潜力完全未被探索

核心挑战： GUI Grounding 输出是结构化的动作字符串（如 lclick [42,180,120,250]），包含动作类型和边界框坐标 \(B = (x_1, y_1, x_2, y_2)\)。其中 \((x_1, y_1)\) 是动作锚点，\((x_2, y_2)\) 定义空间范围，存在几何层次依赖。LLaDA-V 默认的线性掩码调度对所有 token 随机腐蚀，可能破坏模型学习这种一致几何依赖关系的能力。

方法详解¶

整体框架¶

基于 LLaDA-V (8B) 构建： - 语言塔：LLaDA（离散扩散语言模型） - 视觉塔：SigLIP-2 - 两层 MLP 投影器对齐视觉嵌入到语言 token 空间

输入：GUI 截图 + 自然语言指令输出：动作字符串（如 lclick [42,180,120,250] 或 type_in [50,90,200,130] hello）

关键设计¶

LLaDA-V 适配为 GUI Grounding：
- 将 GUI Grounding 框架化为文本生成任务：给定图像和指令，生成动作类型和边界框坐标
- 训练目标：重建被掩码的动作 token
- \(L(\theta) = -\mathbb{E}[\frac{1}{t} \sum_i \mathbb{1}[r_t^{1,i}=[M]] \times \log p_\theta(r_0^{1,i} | v, p_0^1, r_t^1)]\)
- 推理时：从全掩码序列开始，通过反向扩散过程迭代去噪，使用低置信度重掩码策略
- 设计动机：利用 LLaDA-V 已有的三阶段预训练（视觉-语言对齐、指令微调、推理增强）的迁移能力
混合掩码调度（Hybrid Masking Schedule）：
- 线性掩码阶段（Linear Masking Phase）：
  - 保留 LLaDA-V 的标准调度，掩码概率 \(p_{mask} = (1-\varepsilon)t + \varepsilon\)
  - 负责学习粗粒度 Grounding：预测动作类型和锚点坐标 \((x_1, y_1)\)
- 确定性掩码阶段（Full Deterministic Masking Phase）：
  - 所有响应 token 被完全掩码
  - 以图像 \(I\)、指令 \(N\) 和锚点 \((x_1, y_1)\) 为条件，预测剩余坐标 \((x_2, y_2)\)
  - 强化模型学习条件概率 \(p_\theta(x_2, y_2 | a_{type}, x_1, y_1, I, N)\)
- 设计动机：线性掩码的随机性很少产生"锚点可见、范围被掩码"的配置，确定性阶段强制这种条件关系，模拟从粗到细的精炼过程
数据扩展策略：
- 初始用 7k Mind2Web 样本验证可行性
- 扩展到 120K 多领域数据：Mind2Web (20K) + WebLinX (20K) + OS-Atlas (60K, 涵盖 Web/Mobile/Desktop) + Rico Widget Caption (20K)
- 对大尺寸截图使用随机裁剪（保证目标元素可见）
- 使用 OCR 文本关联的标注替代纯图标级标注
推理参数分析：
- 三个关键参数：扩散步数、生成长度、块长度
- 全部设为 64 时达到最佳精度-延迟平衡
- 超过阈值后精度趋于平稳但延迟持续增加

损失函数 / 训练策略¶

训练目标：离散扩散的掩码语言建模目标
初始实验：7k Mind2Web 样本，训练 10 个 epoch
大规模实验：120K 样本，混合多领域数据
混合掩码：两个阶段分别训练（线性 + 全确定性）
评估指标：
- Action-Type F1：动作类型分类的 F1 值
- Step Success Rate (SSR)：预测边界框中心点落在 ground-truth 框内的比例

实验关键数据¶

主实验¶

AR vs NAR（非自回归）GUI Grounding 对比（120K 训练数据）：

数据集	指标	Phi (3B)	Qwen2.5-VL (3B)	Qwen2.5-VL (7B)	LLaDA-V (线性)	LLaDA-V (混合,Ours)
Mind2Web	SSR (%)	56.8	79.3	81.9	82.4	83.9
	F1 (%)	94.4	99.6	99.9	98.5	100.0
ScreenSpot-Web-Icon	SSR (%)	62.6	79.1	85.4	57.8	63.1
ScreenSpot-Web-Text	SSR (%)	77.0	83.0	83.0	73.5	74.8
VisualWebArena	SSR (%)	68.5	88.9	87.2	61.4	67.5

混合掩码 vs 线性掩码的 SSR 提升： - Mind2Web: +1.6 - ScreenSpot-Web-Icon: +5.3 - ScreenSpot-Web-Text: +1.3 - VisualWebArena: +6.1

消融实验¶

推理参数影响（Mind2Web 7K）：

扩散步数	生成长度	块长度	收敛步数	SSR (%)	延迟(s)
32	32	32	13	78.15	2.56
64	64	64	25	80.67	4.84
128	128	128	25	80.63	5.01

裁剪 + OCR 标注的影响（Mind2Web 7K）：

配置	SSR (%)	延迟(s)	说明
原始截图	80.67	4.84	基线
裁剪 + OCR 标注	83.31	4.46	+2.68 SSR, -0.38s

数据扩展效果（线性掩码）：

数据集	7K 训练 SSR	120K 训练 SSR	提升
ScreenSpot-Web-Text	54.4	73.5	+19.1
ScreenSpot-Web-Icon	19.9	57.8	+37.9
VisualWebArena	32.4	61.4	+29.0

关键发现¶

DVLM 具备 GUI Grounding 能力：即使是仅用 7k 样本微调的 LLaDA-V，也能在 Mind2Web 上达到 80.67% SSR，证明扩散模型可进行空间定位
混合掩码一致性改善精度：在所有 4 个基准上 SSR 提升 1.3-6.1 点，验证了显式建模锚点-范围条件依赖的有效性
数据扩展效果显著：120K 多领域数据平均提升 20+ SSR 点，同时减少 1-1.5s 延迟和 8-9 个收敛步数
与 AR 模型仍有差距：LLaDA-V (8B) 在 ScreenSpot 和 VWA 上落后 Qwen2.5-VL (7B) 约 15-20 点，但考虑到预训练数据量差异巨大，差距合理
延迟是主要瓶颈：混合掩码引入额外延迟（3-6.5s vs AR 的 1.1s），因为需要两阶段顺序推理

亮点与洞察¶

首次探索扩散模型在 GUI Grounding 中的可行性：填补了 DVLM 在这一重要应用方向的空白，发现扩散模型的双向注意力和迭代精炼对坐标预测确实有帮助
混合掩码的"从粗到细"设计巧妙：将边界框的几何层次（锚点→范围）编码到掩码调度中，是一种将领域先验注入扩散过程的优雅方式
数据扩展带来的效率提升出乎意料：更多数据不仅提高精度，还减少了收敛步数和延迟，说明更好的先验加速了去噪过程
诚实地呈现与 AR 模型的差距：论文不回避 DVLM 在预训练规模和延迟上的劣势，定位为"探索性研究"而非声称全面超越

局限与展望¶

延迟问题严重：扩散模型的多步去噪导致延迟是 AR 模型的 3-6 倍，对实时交互场景不友好
仅支持单步动作：当前仅处理单步 Grounding，多步规划和依赖动作序列留待未来
预训练数据不对等：LLaDA-V 的预训练数据远少于 Qwen2.5-VL，性能差距可能随更充分的预训练缩小
混合掩码的两阶段依赖增加复杂度：线性阶段的输出作为确定性阶段的输入，引入了额外的顺序计算
动作类型过于简单：仅支持 lclick/hover/type_in 三种，实际 GUI 操作更复杂（滚动、拖拽等）
缺乏对比最新 GUI Agent 系统：未与 UI-TARS、OS-Atlas 等完整系统做端到端对比

评分¶

新颖性: ⭐⭐⭐⭐ （首次将DVLM用于GUI Grounding，混合掩码设计有创意，但基于已有模型适配）
实验充分度: ⭐⭐⭐⭐ （4个基准、推理参数消融、数据扩展分析，但缺少与更多GUI Agent的对比）
写作质量: ⭐⭐⭐⭐ （定位清晰，诚实呈现优缺点，但部分表格格式略凌乱）
价值: ⭐⭐⭐⭐ （为GUI Agent开辟了扩散模型的新方向，但实用性受限于延迟和性能差距）