Towards Scalable Web Accessibility Audit with MLLMs as Copilots¶

会议: AAAI2026
arXiv: 2511.03471
代码: eaglelab-zju/AAA
领域: object_detection
关键词: web accessibility, WCAG-EM, multimodal LLM, graph neural network, page sampling

一句话总结¶

提出 AAA 框架，通过 GRASP（基于图的多模态页面采样）和 MaC（MLLM 作为 Copilot）两大创新，将 WCAG-EM 标准操作化，实现可扩展的端到端网页无障碍审计。

研究背景与动机¶

Web 无障碍性是数字包容的基础，但最新调查显示 94.8% 的百万级网站首页存在 WCAG 违规。问题的根源不在于教育或工具缺失，而在于审计本身的资源瓶颈：

现有工具局限：WAVE、Axe 等工具仅执行硬编码规则检查（如 alt text 缺失、对比度不足），无法覆盖语义和认知层面的问题
WCAG-EM 执行困难：W3C 提出的五步审计方法论虽然标准化，但缺乏技术框架支撑大规模执行
页面采样不足：现有聚类方法（SDC）仅基于浅层文本统计特征，忽略视觉布局和超链接关系等多模态语义
人工评估瓶颈：手动识别无障碍关键组件（结构化页面、完整流程）需要大量专家劳动

方法详解¶

AAA 框架整体架构¶

对齐 WCAG-EM 五步流程：网站爬取 → 自动检查 → 页面采样 → 人工检查 → 报告/修复。核心创新在页面采样和人工检查两阶段。

GRASP：基于图的多模态页面采样¶

从三个维度定义页面代表性： 1. 文本语义代表性：用 BERT 提取 DOM 文本的上下文化语义表示 2. 视觉布局代表性：用 ViT 从页面截图中学习布局级视觉表示 3. 链接关系代表性：用 GNN 在超链接图上学习结构表示

融合流程：\(\mathbf{X} = \mathbf{H}_t || \mathbf{H}_v\)，经 GNN message passing 后用 k-means 聚类，从每个聚类中选距中心最近的节点作为采样页面。额外引入 representativeness-enhanced graph learning，利用聚类结果修剪噪声边并恢复语义相似但未直连的边。

MaC：MLLM 作为多角色 Copilot¶

Assistant：自动识别 WCAG-EM 定义的结构化页面（common/relevant/essential/technology-dependent），辅助基于个体特征的页面采样；预提取无障碍关键元素（搜索栏、表单、CAPTCHA 等）
Auditor：评估传统工具忽视的认知无障碍问题（WCAG 2.2 SC 3.3.8/3.3.9），如 CAPTCHA 的认知负担
Consultant：提供修复建议（未来方向）

四个新数据集¶

TPS：495 网站共 97,246 页面，含 DOM/截图/Axe 检查/邻接矩阵
APR：968 页面，5 类网站，标注 4 类 WCAG-EM 结构化页面
CCT：1,985 张 CAPTCHA 图像，17 类认证任务，评估认知无障碍
CPE：1,199 页面，标注搜索/筛选/表单/CAPTCHA/联系方式 5 类组件

实验关键数据¶

GRASP 页面采样（495 网站平均）¶

方法	Layout \(S_{sampled}\)↓	Layout \(D_{intra-inter}\)↑	Text \(S_{sampled}\)↓	Text \(D_{intra-inter}\)↑
SDC_content	56.66	9.96	89.29	2.73
SDC_tags	54.18	10.76	88.76	2.12
GRASP_GCN	51.54	13.05	86.99	1.59
GRASP_IGNN	44.31	14.94	80.45	7.40

GRASP_IGNN 在两个表示空间中均大幅领先，异质图建模更适合网站超链接结构。

MaC 在 APR/CPE 上的 F1¶

GPT-4o 在搜索栏识别上 F1=98.01%，CAPTCHA 检测 F1=95.33%
小模型 Qwen2.5-VL-72B 在 Relevant 页面识别上 F1=80.21%，超过 GPT-4o (35.44%)
认知 CAPTCHA 分类：fine-tuned Intern2-VL-8B 达 macro-F1=45.58%，超过 GPT-4o (29.16%)

亮点¶

首个端到端 WAA 框架：对齐 WCAG-EM 五步流程，覆盖全审计生命周期
多模态页面采样：首次整合文本、视觉、链接三维代表性，GRASP_IGNN 效果显著优于纯文本方法
MLLM 多角色定位：超越评估/修复的窄范围，探索 MLLM 在采样、预审计定位、认知无障碍评估中的应用
小模型潜力：实验表明 fine-tuned 8B 模型可作为领域专家，成本效益高

局限性¶

GRASP 依赖 BERT/ViT 预训练质量，对非英文网站效果未验证
MLLM 在 Relevant 页面识别等任务上仍有较大提升空间（GPT-4o F1 仅 35%）
认知 CAPTCHA 分类的 macro-F1 最高 45.58%，距实用要求仍有距离
数据集规模有限（APR 仅 968 页面 / 5 网站），泛化性需进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统地将 MLLM 和 GNN 整合到 WCAG-EM 全流程审计中
实验充分度: ⭐⭐⭐⭐ — 495 网站采样实验+5 MLLM 对比+4 数据集，覆盖面广
写作质量: ⭐⭐⭐⭐ — 框架清晰，与标准对齐好，但细节较多
价值: ⭐⭐⭐⭐ — 对网页无障碍大规模审计有直接应用价值