Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions¶
会议: ACL 2025
arXiv: 2503.13369
代码: HuggingFace
领域: 其他
关键词: 视觉无障碍, 图表描述, BLV偏好对齐, DPO, 视觉语言模型
一句话总结¶
提出让视力正常者「评估」而非「生成」VLM 的图表描述,构建了首个经 BLV 专业教育者验证的 5k 图表 / 137k 样本多任务数据集 Sightation,偏好微调 2B 模型后在 BLV 有用性评分上平均提升 1.67σ。
研究背景与动机¶
领域现状:视觉语言模型(VLM)在图像理解和描述生成方面进展迅速,Qwen2-VL、GPT-4o 等模型已能生成高质量的图像描述。然而,这些模型的输出主要面向视力正常用户优化,对盲人和低视力(BLV)群体的实际可用性缺乏关注。在教育场景中,教科书的图表(如科学示意图、数据图)需要通过文字描述帮助 BLV 学生理解,但现有 VLM 往往给出冗长或信息选择不当的描述。
现有痛点:已有数据集存在三类缺陷。其一,VisText、MathVista 等数据集虽然涵盖图表描述,但从未经过 BLV 用户验证,描述质量是否真正符合 BLV 需求无从判断。其二,VizWiz-VQA 和 VizWiz-LF 虽有 BLV 参与,但仅聚焦于视觉问答(VQA),无法用于补全、偏好对齐、检索等多样化训练目标。其三,传统做法是雇佣视力正常的标注者撰写图表描述,但 Lundgard & Satyanarayan (2022) 已证明视力正常者与 BLV 用户在偏好上存在显著差异——前者倾向于描述低层数值细节,后者更关注高层洞察和实用性。
核心矛盾:标注者(视力正常者)和终端用户(BLV 群体)之间存在根本性的偏好错位(preference misalignment)。让视力正常者直接生成描述不仅成本高昂、容易引入标注者偏见(Geva et al., 2019),而且产出并不符合 BLV 标准。同时,通用 VLM 的公开奖励模型极度稀缺,更没有 BLV 特化版本,传统的 RLHF 路线走不通。
本文目标 (1) 如何低成本地大规模收集与 BLV 偏好对齐的标注数据? (2) 如何在没有 BLV 特化奖励模型的情况下进行偏好对齐微调? (3) 如何构建一个支持补全、偏好、检索、VQA、推理等多任务的 BLV 数据集?
切入角度:作者观察到「评估」任务的认知负担远低于「生成」任务——让视力正常者判断两段描述哪个更好、给各维度打分,比让他们从头写一段 BLV 友好的描述要简单得多。Kreiss et al. (2022) 已初步证明视力正常者可以作为 BLV 偏好的有效估计器,但仅限于少量特定维度。如果将这一思路扩展到数据集规模的多维评估,并引入 BLV 专业教育者进行验证,就有望同时解决标注成本和偏好对齐两个问题。
核心 idea:用 VLM 引导生成 + 视力正常者多维评估 + BLV 教育者验证,构建首个大规模 BLV 对齐的多任务图表描述数据集。
方法详解¶
整体框架¶
整个流程分为四个阶段:(1) 用两轮推理(引导生成)让 VLM 生成 BLV 友好的图表描述;(2) 让 30 名视力正常者对描述进行偏好选择、多维打分、最佳句子标注;(3) 将标注结果加工为补全、偏好对齐、检索等多种任务格式的数据集;(4) 在 Qwen2-VL 2B/7B 和 BLIP-2 上进行 SFT/DPO/对比学习微调,并由 17 名 BLV 和视力正常的专业教育者评估效果。
基础数据来源为 AI2D 数据集(5k 张小学科学图表),选择该数据集是因为其不需要专业领域知识、且图表对 VLM 的理解能力提出了独特挑战。使用 GPT-4o mini 和 Qwen2-VL 72B 两个模型,为每张图表各生成有引导/无引导两种描述,共 20k 条。
关键设计¶
-
两轮引导生成(Guided Generation with Latent Supervision):
- 功能:通过两轮推理让 VLM 生成更符合 BLV 需求的图表描述
- 核心思路:第一轮推理中,VLM 针对输入图表生成一组问答对(guide),这些 QA 对帮助模型识别图表中哪些部分是关键信息、哪些是次要信息。第二轮推理中,VLM 同时接收图表和第一轮的 guide 作为输入,在 guide 的隐式引导下生成描述。这种设计使得 VLM 在生成描述时不是简单地逐像素叙述,而是有选择地聚焦于对 BLV 用户最有价值的信息。每张图表由两个模型(GPT-4o mini、Qwen2-VL 72B)各生成有引导和无引导两个版本,共 4 条描述
- 设计动机:直接提示 VLM 生成 BLV 友好描述的效果有限,因为模型缺乏对 BLV 需求的理解。通过 QA 对作为中间表示,模型在第二轮推理时相当于获得了「哪些信息值得描述」的先验知识,而无需显式的 BLV 训练数据
-
三层协作标注体系(Multi-role Assessment Design):
- 功能:利用不同视觉能力和专业背景的人群进行互补评估,覆盖 9 个质量维度
- 核心思路:30 名视力正常普通标注者负责需要视觉基础的维度——事实性(描述是否与图表一致)和信息量(是否涵盖关键信息),以及偏好选择和最佳句子标注。9 名视力正常教育者负责评估通用有用性(估计描述对 BLV 用户的帮助程度)。8 名 BLV 教育者(均在盲校任教)负责评估四种细粒度有用性(摘要有用性、选择题有用性、开放题有用性、通用有用性)以及解释性(描述是陈述事实还是给出解读)。简洁性和多样性两个维度由所有组别评估,因为它们仅需文本理解能力
- 设计动机:传统做法让单一标注者组完成所有评估,但不同维度对标注者的能力要求不同。事实性需要看得见图才能判断,而有用性需要理解 BLV 用户的真实需求。将评估任务按需分配给最合适的人群,既保证了每个维度的标注质量,又降低了对 BLV 标注者的负担
-
多任务数据集构建流水线(Multi-task Dataset Construction):
- 功能:将标注结果系统性地转化为五种不同任务格式的训练数据
- 核心思路:SightationCompletions(8k 样本)——将全部 4k 条人工标注描述组织为 (图表, 指令, 描述) 三元组,并从各维度评分最高的 25% 描述中抽取 4k 条带维度特化后缀的增强样本。SightationPreference(16k 对)——从同模型内对比(2k 对,直接用偏好标注)、跨模型对比(4k 对,按平均评分排序)和合成对比(10k 对,移除最佳句子作为 rejected 版本)三个来源构建 chosen-rejected 配对。SightationRetrieval(1k 行)——包含 top-1/5/10 正样本和 10 个困难负样本的图像检索数据。此外还有 VQA 和推理子集
- 设计动机:BLV 需求涉及多种下游任务场景,单一任务格式无法满足。通过设计不同的数据加工策略,一份原始标注可以同时支持 SFT、DPO、对比学习、VQA 等多种训练范式
损失函数 / 训练策略¶
- SFT 微调:Qwen2-VL 2B 进行全量 SFT,7B 进行参数高效微调(PEFT),训练数据为 SightationCompletions
- DPO 偏好对齐:关键设计是 SFT 阶段使用与 DPO 阶段不重叠的图表——从未标注池中随机抽取 1k 图表的 4k 描述做 SFT,然后在 SightationPreference 上进行 DPO,避免 SFT-DPO 共享数据导致的过拟合
- 对比学习:使用 InfoNCE 损失微调 BLIP-2 的部分参数,仅用 top-1 正样本和一个随机负样本,节省计算开销
实验关键数据¶
主实验¶
BLV 教育者评估 — 完整方案效应量(Cohen's d,单位 σ):
| 维度 | 2B 模型 | 7B 模型 | 最佳模型 |
|---|---|---|---|
| 简洁性 | -0.09 | 1.69 | 7B |
| 多样性 | 0.90 | 0.46 | 2B |
| 摘要有用性 | 0.39 | 0.53 | 7B |
| 选择题有用性 | -0.18 | 0.20 | 7B |
| 开放题有用性 | 0.76 | 0.00 | 2B |
| 平均 | 0.36 | 0.58 | 7B |
| 解释性 | 1.08 | -2.38 | 2B |
偏好微调后 2B 模型在 BLV 评价的有用性上平均提升 1.67σ;SFT 微调的 2B 模型在 11 项自动指标中 8 项超过 ChartGemma(3B);对比学习微调 BLIP-2 在 Precision@1 上比 COCO 微调版高 65 个百分点。
消融实验¶
| 配置 | 平均效应量 | 解释性 | 说明 |
|---|---|---|---|
| 仅微调,无引导生成(2B) | 0.49σ | 1.49σ | 微调本身已有显著效果 |
| 引导生成 + DPO 微调(2B) | 0.52σ | 1.06σ | 加引导生成后微调效果进一步放大 |
| 仅引导生成,GPT-4o 基线 | 0.28σ | 0.33σ | 引导生成对未微调 GPT 也有帮助 |
| 仅引导生成,未微调 2B | -0.15σ | 0.08σ | 未微调模型无法利用引导生成,反而退化 |
| 仅引导生成,DPO 微调 2B | 0.58σ | 3.17σ | 微调是引导生成发挥作用的前提 |
关键发现¶
- 引导生成需要微调作为前提:未微调的 2B 模型使用引导生成后平均效应量为 -0.15σ(反而退化),但 DPO 微调后使用引导生成效应量跃升至 0.58σ。这说明模型需要先通过 Sightation 学习 BLV 偏好,才能有效利用推理时的引导提示
- 2B 和 7B 模型受益方向截然不同:2B 模型主要在解释性上大幅提升(+1.08σ),使描述更具解读性;7B 模型主要在简洁性上获益(+1.69σ),使描述更精炼。这暗示小模型和大模型的 BLV 对齐瓶颈不同
- BLV 教育者独立验证了简洁性的重要性:3 位互不知情的 BLV 教育者在访谈中独立强调「描述必须准确、一致,文本不能太长,且包含关键要素」,与 7B 模型在简洁性维度的大幅提升高度吻合
- 合成对比数据的有效性:从描述中移除最佳句子构造 rejected 样本、移除随机非最佳句子构造 chosen 样本的策略产生了 10k 偏好对,占 SightationPreference 总量的 62.5%,是 DPO 训练的主要数据来源
亮点与洞察¶
- 「评估代替生成」的标注范式:将标注者的角色从生成者转变为评估者,一举解决了标注成本高、标注者偏见和偏好不对齐三个问题。评估任务的认知负担远低于生成任务,使得大规模标注成为可能
- 多角色协作的评估设计:将 9 个评估维度按视觉依赖性和专业需求分配给三组不同的人群,比传统的单一标注者方案更高效也更准确。这种「按能力分工」的思路可推广到其他涉及异质用户群的标注任务
- SFT-DPO 数据隔离策略:刻意让 SFT 阶段和 DPO 阶段使用不同图表的描述,避免模型在相同样本上重复训练导致过拟合,是偏好对齐训练的实用技巧
局限与展望¶
- 监督信号形式单一:引导生成仅使用 QA 格式,未探索其他类型的隐式监督(如标题生成、关键元素列表),可能限制了引导效果的上限
- 图表类型受限:基于 AI2D(小学科学图表),对学术论文中的复杂图表、流程图或非标准布局的泛化能力未验证
- 评估者规模有限:仅 17 名专业教育者参与验证(8 BLV + 9 视力正常),样本量较小,统计功效可能不足
- 未利用分割技术:未使用先进的图像分割方法来定位和解析复杂图表的细节区域
- 数据生成偏见:使用 GPT-4o mini 和 Qwen2-VL 生成基础描述,可能引入模型固有偏见
相关工作与启发¶
- vs VizWiz-VQA/LF:VizWiz 系列数据集有 BLV 参与但仅覆盖 VQA 任务,Sightation 覆盖补全/偏好/检索/VQA/推理五种任务,应用范围更广
- vs VisText / ChartGemma:这些数据集的平均文本长度远短于 Sightation(37.5-74.6 词 vs 188.3 词),且未经 BLV 验证。Sightation 的长文本描述更适合 BLV 用户理解信息密集的图表
- vs Kreiss et al. (2022):前人仅在少量特定维度上验证了视力正常者作为 BLV 偏好估计器的可行性,本文将这一思路扩展到了数据集规模(137k 样本)并覆盖 9 个评估维度
评分¶
- 新颖性: ⭐⭐⭐⭐ 「评估而非生成」的标注策略新颖,三层协作评估设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ BLV 教育者 + 视力正常者 + VLM 评判 + 自动指标的四维评估极为全面,消融设计周到
- 写作质量: ⭐⭐⭐⭐ 条理清晰,效应量分析严谨,表格丰富但部分符号系统较复杂
- 价值: ⭐⭐⭐⭐⭐ 填补 BLV 对齐数据集的重要空白,数据集已公开且支持多任务训练
相关论文¶
- [ACL 2025] InspireDebate: Multi-Dimensional Evaluation-Guided Reasoning for Debating
- [ACL 2025] Synergistic Weak-Strong Collaboration by Aligning Preferences
- [ACL 2025] GETReason: Enhancing Image Context Extraction through Hierarchical Multi-Agent Reasoning
- [ACL 2025] Uni-Retrieval: A Multi-Style Retrieval Framework for STEM's Education
- [ACL 2025] Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks