Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions¶

会议: ACL 2025
arXiv: 2503.13369
代码: HuggingFace
领域: 其他
关键词: 视觉无障碍, 图表描述, BLV偏好对齐, DPO, 视觉语言模型

一句话总结¶

提出让视力正常者「评估」而非「生成」VLM 的图表描述，构建了首个经 BLV 专业教育者验证的 5k 图表 / 137k 样本多任务数据集 Sightation，偏好微调 2B 模型后在 BLV 有用性评分上平均提升 1.67σ。

研究背景与动机¶

领域现状：视觉语言模型（VLM）在图像理解和描述生成方面进展迅速，Qwen2-VL、GPT-4o 等模型已能生成高质量的图像描述。然而，这些模型的输出主要面向视力正常用户优化，对盲人和低视力（BLV）群体的实际可用性缺乏关注。在教育场景中，教科书的图表（如科学示意图、数据图）需要通过文字描述帮助 BLV 学生理解，但现有 VLM 往往给出冗长或信息选择不当的描述。

现有痛点：已有数据集存在三类缺陷。其一，VisText、MathVista 等数据集虽然涵盖图表描述，但从未经过 BLV 用户验证，描述质量是否真正符合 BLV 需求无从判断。其二，VizWiz-VQA 和 VizWiz-LF 虽有 BLV 参与，但仅聚焦于视觉问答（VQA），无法用于补全、偏好对齐、检索等多样化训练目标。其三，传统做法是雇佣视力正常的标注者撰写图表描述，但 Lundgard & Satyanarayan (2022) 已证明视力正常者与 BLV 用户在偏好上存在显著差异——前者倾向于描述低层数值细节，后者更关注高层洞察和实用性。

核心矛盾：标注者（视力正常者）和终端用户（BLV 群体）之间存在根本性的偏好错位（preference misalignment）。让视力正常者直接生成描述不仅成本高昂、容易引入标注者偏见（Geva et al., 2019），而且产出并不符合 BLV 标准。同时，通用 VLM 的公开奖励模型极度稀缺，更没有 BLV 特化版本，传统的 RLHF 路线走不通。

本文目标 (1) 如何低成本地大规模收集与 BLV 偏好对齐的标注数据？ (2) 如何在没有 BLV 特化奖励模型的情况下进行偏好对齐微调？ (3) 如何构建一个支持补全、偏好、检索、VQA、推理等多任务的 BLV 数据集？

切入角度：作者观察到「评估」任务的认知负担远低于「生成」任务——让视力正常者判断两段描述哪个更好、给各维度打分，比让他们从头写一段 BLV 友好的描述要简单得多。Kreiss et al. (2022) 已初步证明视力正常者可以作为 BLV 偏好的有效估计器，但仅限于少量特定维度。如果将这一思路扩展到数据集规模的多维评估，并引入 BLV 专业教育者进行验证，就有望同时解决标注成本和偏好对齐两个问题。

核心 idea：用 VLM 引导生成 + 视力正常者多维评估 + BLV 教育者验证，构建首个大规模 BLV 对齐的多任务图表描述数据集。

方法详解¶

整体框架¶

整个流程分为四个阶段：(1) 用两轮推理（引导生成）让 VLM 生成 BLV 友好的图表描述；(2) 让 30 名视力正常者对描述进行偏好选择、多维打分、最佳句子标注；(3) 将标注结果加工为补全、偏好对齐、检索等多种任务格式的数据集；(4) 在 Qwen2-VL 2B/7B 和 BLIP-2 上进行 SFT/DPO/对比学习微调，并由 17 名 BLV 和视力正常的专业教育者评估效果。

基础数据来源为 AI2D 数据集（5k 张小学科学图表），选择该数据集是因为其不需要专业领域知识、且图表对 VLM 的理解能力提出了独特挑战。使用 GPT-4o mini 和 Qwen2-VL 72B 两个模型，为每张图表各生成有引导/无引导两种描述，共 20k 条。

关键设计¶

两轮引导生成（Guided Generation with Latent Supervision）:
- 功能：通过两轮推理让 VLM 生成更符合 BLV 需求的图表描述
- 核心思路：第一轮推理中，VLM 针对输入图表生成一组问答对（guide），这些 QA 对帮助模型识别图表中哪些部分是关键信息、哪些是次要信息。第二轮推理中，VLM 同时接收图表和第一轮的 guide 作为输入，在 guide 的隐式引导下生成描述。这种设计使得 VLM 在生成描述时不是简单地逐像素叙述，而是有选择地聚焦于对 BLV 用户最有价值的信息。每张图表由两个模型（GPT-4o mini、Qwen2-VL 72B）各生成有引导和无引导两个版本，共 4 条描述
- 设计动机：直接提示 VLM 生成 BLV 友好描述的效果有限，因为模型缺乏对 BLV 需求的理解。通过 QA 对作为中间表示，模型在第二轮推理时相当于获得了「哪些信息值得描述」的先验知识，而无需显式的 BLV 训练数据
三层协作标注体系（Multi-role Assessment Design）:
- 功能：利用不同视觉能力和专业背景的人群进行互补评估，覆盖 9 个质量维度
- 核心思路：30 名视力正常普通标注者负责需要视觉基础的维度——事实性（描述是否与图表一致）和信息量（是否涵盖关键信息），以及偏好选择和最佳句子标注。9 名视力正常教育者负责评估通用有用性（估计描述对 BLV 用户的帮助程度）。8 名 BLV 教育者（均在盲校任教）负责评估四种细粒度有用性（摘要有用性、选择题有用性、开放题有用性、通用有用性）以及解释性（描述是陈述事实还是给出解读）。简洁性和多样性两个维度由所有组别评估，因为它们仅需文本理解能力
- 设计动机：传统做法让单一标注者组完成所有评估，但不同维度对标注者的能力要求不同。事实性需要看得见图才能判断，而有用性需要理解 BLV 用户的真实需求。将评估任务按需分配给最合适的人群，既保证了每个维度的标注质量，又降低了对 BLV 标注者的负担
多任务数据集构建流水线（Multi-task Dataset Construction）:
- 功能：将标注结果系统性地转化为五种不同任务格式的训练数据
- 核心思路：SightationCompletions（8k 样本）——将全部 4k 条人工标注描述组织为 (图表, 指令, 描述) 三元组，并从各维度评分最高的 25% 描述中抽取 4k 条带维度特化后缀的增强样本。SightationPreference（16k 对）——从同模型内对比（2k 对，直接用偏好标注）、跨模型对比（4k 对，按平均评分排序）和合成对比（10k 对，移除最佳句子作为 rejected 版本）三个来源构建 chosen-rejected 配对。SightationRetrieval（1k 行）——包含 top-1/5/10 正样本和 10 个困难负样本的图像检索数据。此外还有 VQA 和推理子集
- 设计动机：BLV 需求涉及多种下游任务场景，单一任务格式无法满足。通过设计不同的数据加工策略，一份原始标注可以同时支持 SFT、DPO、对比学习、VQA 等多种训练范式

损失函数 / 训练策略¶

SFT 微调：Qwen2-VL 2B 进行全量 SFT，7B 进行参数高效微调（PEFT），训练数据为 SightationCompletions
DPO 偏好对齐：关键设计是 SFT 阶段使用与 DPO 阶段不重叠的图表——从未标注池中随机抽取 1k 图表的 4k 描述做 SFT，然后在 SightationPreference 上进行 DPO，避免 SFT-DPO 共享数据导致的过拟合
对比学习：使用 InfoNCE 损失微调 BLIP-2 的部分参数，仅用 top-1 正样本和一个随机负样本，节省计算开销

实验关键数据¶

主实验¶

BLV 教育者评估 — 完整方案效应量（Cohen's d，单位 σ）：

维度	2B 模型	7B 模型	最佳模型
简洁性	-0.09	1.69	7B
多样性	0.90	0.46	2B
摘要有用性	0.39	0.53	7B
选择题有用性	-0.18	0.20	7B
开放题有用性	0.76	0.00	2B
平均	0.36	0.58	7B
解释性	1.08	-2.38	2B

偏好微调后 2B 模型在 BLV 评价的有用性上平均提升 1.67σ；SFT 微调的 2B 模型在 11 项自动指标中 8 项超过 ChartGemma（3B）；对比学习微调 BLIP-2 在 Precision@1 上比 COCO 微调版高 65 个百分点。

消融实验¶

配置	平均效应量	解释性	说明
仅微调，无引导生成（2B）	0.49σ	1.49σ	微调本身已有显著效果
引导生成 + DPO 微调（2B）	0.52σ	1.06σ	加引导生成后微调效果进一步放大
仅引导生成，GPT-4o 基线	0.28σ	0.33σ	引导生成对未微调 GPT 也有帮助
仅引导生成，未微调 2B	-0.15σ	0.08σ	未微调模型无法利用引导生成，反而退化
仅引导生成，DPO 微调 2B	0.58σ	3.17σ	微调是引导生成发挥作用的前提

关键发现¶

引导生成需要微调作为前提：未微调的 2B 模型使用引导生成后平均效应量为 -0.15σ（反而退化），但 DPO 微调后使用引导生成效应量跃升至 0.58σ。这说明模型需要先通过 Sightation 学习 BLV 偏好，才能有效利用推理时的引导提示
2B 和 7B 模型受益方向截然不同：2B 模型主要在解释性上大幅提升（+1.08σ），使描述更具解读性；7B 模型主要在简洁性上获益（+1.69σ），使描述更精炼。这暗示小模型和大模型的 BLV 对齐瓶颈不同
BLV 教育者独立验证了简洁性的重要性：3 位互不知情的 BLV 教育者在访谈中独立强调「描述必须准确、一致，文本不能太长，且包含关键要素」，与 7B 模型在简洁性维度的大幅提升高度吻合
合成对比数据的有效性：从描述中移除最佳句子构造 rejected 样本、移除随机非最佳句子构造 chosen 样本的策略产生了 10k 偏好对，占 SightationPreference 总量的 62.5%，是 DPO 训练的主要数据来源

亮点与洞察¶

「评估代替生成」的标注范式：将标注者的角色从生成者转变为评估者，一举解决了标注成本高、标注者偏见和偏好不对齐三个问题。评估任务的认知负担远低于生成任务，使得大规模标注成为可能
多角色协作的评估设计：将 9 个评估维度按视觉依赖性和专业需求分配给三组不同的人群，比传统的单一标注者方案更高效也更准确。这种「按能力分工」的思路可推广到其他涉及异质用户群的标注任务
SFT-DPO 数据隔离策略：刻意让 SFT 阶段和 DPO 阶段使用不同图表的描述，避免模型在相同样本上重复训练导致过拟合，是偏好对齐训练的实用技巧

局限与展望¶

监督信号形式单一：引导生成仅使用 QA 格式，未探索其他类型的隐式监督（如标题生成、关键元素列表），可能限制了引导效果的上限
图表类型受限：基于 AI2D（小学科学图表），对学术论文中的复杂图表、流程图或非标准布局的泛化能力未验证
评估者规模有限：仅 17 名专业教育者参与验证（8 BLV + 9 视力正常），样本量较小，统计功效可能不足
未利用分割技术：未使用先进的图像分割方法来定位和解析复杂图表的细节区域
数据生成偏见：使用 GPT-4o mini 和 Qwen2-VL 生成基础描述，可能引入模型固有偏见

评分¶

新颖性: ⭐⭐⭐⭐ 「评估而非生成」的标注策略新颖，三层协作评估设计精巧
实验充分度: ⭐⭐⭐⭐⭐ BLV 教育者 + 视力正常者 + VLM 评判 + 自动指标的四维评估极为全面，消融设计周到
写作质量: ⭐⭐⭐⭐ 条理清晰，效应量分析严谨，表格丰富但部分符号系统较复杂
价值: ⭐⭐⭐⭐⭐ 填补 BLV 对齐数据集的重要空白，数据集已公开且支持多任务训练