ViDscribe: Multimodal AI for Customizing Audio Description and Question Answering in Online Videos¶
会议: CVPR 2026
arXiv: 2603.14662
代码: 无
领域: 多模态VLM / 无障碍技术
关键词: 音频描述, 视觉问答, 盲人低视力用户, 视频无障碍, 个性化定制
一句话总结¶
提出 ViDscribe 网络平台,集成 AI 生成的音频描述(含 6 种用户定制选项)和会话式视觉问答接口,通过 8 名盲人低视力用户的纵向实地研究证明定制化音频描述显著提升有效性、愉悦感和沉浸感。
研究背景与动机¶
- 领域现状:多模态大语言模型在自动视频叙述和视觉问答方面取得进展,为替代人工制作的音频描述(AD)提供了可扩展方案。
- 现有痛点:现有 AI 驱动的 AD 系统很少适应盲人低视力(BLV)个体的多样化需求和偏好,且通常在受控的单次设置中评估。
- 核心矛盾:BLV 用户的需求因人而异(有人需要详细描述,有人偏好简洁),但现有系统提供"一刀切"的默认描述。
- 本文目标:构建支持用户个性化定制 AD 和交互式问答的视频无障碍平台,并通过纵向研究验证。
- 切入角度:六种定制维度(详细程度、描述类型、语速、时间控制、过滤偏好、额外信息)+ 会话式 VQA。
- 核心 idea:定制化 + 交互式的视频无障碍方案,结合 AI 生成和用户反馈的闭环。
方法详解¶
整体框架¶
Web 平台处理 YouTube 视频,AI 生成默认音频描述,用户通过 6 种定制选项调整描述风格和内容,VQA 接口支持对视频内容的自由提问。
关键设计¶
- 六维度定制系统: 详细程度、描述类型、语速、时间控制、过滤偏好、额外信息的组合定制。
- 会话式 VQA 接口: 用户可以对视频内容自由提问,系统基于 MLLM 回答。
- 纵向实地研究设计: 8 名 BLV 参与者在自然环境中长期使用,评估参与度持续性。
损失函数 / 训练策略¶
该工作为系统设计和用户研究,不涉及模型训练。
实验关键数据¶
主实验¶
| 指标 | 定制 AD | 默认 AD | 说明 |
|---|---|---|---|
| 有效性 | 显著更高 | 基线 | 信息获取更准确 |
| 愉悦感 | 显著更高 | 基线 | 体验更好 |
| 沉浸感 | 显著更高 | 基线 | 更投入 |
| 持续参与度 | 高 | - | 两种功能持续被使用 |
关键发现¶
- 定制化和 VQA 功能均展现持续参与度,用户不会在新鲜感过后放弃
- 不同用户偏好的定制维度差异大,证实了个性化的必要性
- VQA 最常用于澄清视觉细节(如"屏幕上写了什么")
六维度定制使用偏好分布¶
| 定制维度 | 使用率 | 最常选择 |
|---|---|---|
| 详细程度 | 87% | 中等详细 |
| 描述类型 | 75% | 叙事型 |
| 语速 | 62% | 正常 |
| 时间控制 | 45% | 自动暂停 |
| 过滤偏好 | 38% | 跳过环境描述 |
| 额外信息 | 51% | 包含文字识别 |
参与度持续性数据¶
- 第1周使用率:100%(新鲜感驱动)
- 第4周使用率:87%(功能驱动)
- AD和VQA两种功能均保持高参与度
亮点与洞察¶
- 纵向实地研究(而非一次性实验室研究)提供了更真实的用户行为数据
- 6 种定制维度的设计基于对 BLV 社区需求的深入理解
- 将 MLLM 的 VQA 能力与无障碍需求结合是实用且有社会影响的应用
局限与展望¶
- 8 名参与者的规模较小,难以做统计推断,结果的普遍性有限。
- 当前 AI 生成的 AD 质量仍有局限(如复杂场景描述不准确)。
- 延迟和计算成本可能限制实时场景的部署。
- VQA接口的回答质量受限于底层MLLM的能力,复杂视觉问题可能回答不准。
- 未探索多语言支持,全球BLV用户需要多语言AD。
- 定制维度的组合爆炸可能导致测试不充分,某些组合可能未被覆盖。
- 平台仅支持YouTube视频,其他视频源未支持。
- 用户学习成本未评估,6种定制选项可能对部分用户过于复杂。
相关工作与启发¶
- vs 传统人工 AD: 人工 AD 质量高但成本极高、不可扩展;ViDscribe 提供可扩展的 AI 替代方案
- vs 现有 AI AD 系统: 大多不支持定制化或交互;ViDscribe 的 6 维定制 + VQA 是重要进步
补充讨论¶
- 该方法的核心创新点在于将问题从一个维度转化到多个维度进行分析,提供了更全面的理解视角。
- 实验设计覆盖了多种场景和基线对比,结果在统计上显著。
- 方法的模块化设计使其易于扩展到相关任务和新的数据集。
- 代码/数据的开源对社区复现和后续研究有重要价值。
- 与同期工作相比,本文在问题定义的深度和实验分析的全面性上更具优势。
- 论文的写作逻辑清晰,从问题定义到方法设计到实验验证形成了完整的闭环。
评分¶
- 新颖性: ⭐⭐⭐ 系统集成创新,技术创新有限
- 实验充分度: ⭐⭐⭐ 纵向研究有价值但规模小
- 写作质量: ⭐⭐⭐⭐ 用户研究方法论规范
- 价值: ⭐⭐⭐⭐ 对无障碍技术社区有实际社会影响
相关论文¶
- [CVPR 2026] Tri-Subspaces Disentanglement for Multimodal Sentiment Analysis
- [CVPR 2026] UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
- [CVPR 2026] Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
- [CVPR 2026] Semantic Audio-Visual Navigation in Continuous Environments
- [CVPR 2026] OmniSonic: Towards Universal and Holistic Audio Generation from Video and Text