Crowdsourcing of Real-world Image Annotation via Visual Properties¶

会议: CVPR 2026
arXiv: 2604.14449
代码: 无
领域: 数据集构建/标注方法论
关键词: image annotation, crowdsourcing, visual properties, semantic gap, object hierarchy

一句话总结¶

提出一种基于视觉属性约束的图像标注方法论，通过知识表示构建对象类别层次结构并结合交互式众包框架，利用视觉属和视觉差引导标注过程，减少标注者主观性和语义鸿沟问题。

研究背景与动机¶

现有图像数据集（如 ImageNet、Open Images）的构建过程存在主观性问题：标注者根据个人理解将图像匹配到预定义类别，导致多对多映射问题和标注不一致。例如同一图像在 ImageNet 中被标注为三个不同粒度的类别，或明显不同的图像（实物、玩具、卡通、人偶）被标为同一"棕熊"类别。根源是自然语言的复杂性和多义性引入的语义鸿沟问题 (SGP)。

方法详解¶

整体框架¶

四步标注策略：(1) 标签定义：基于知识库构建类别层次，精确定义每个类别的视觉属性；(2) 标签消歧：为每个标签分配唯一概念标识符；(3) 对象定位：识别并定位图像中的所有对象；(4) 视觉分类：通过视觉属性引导分类，逐层确认视觉属和视觉差。

关键设计¶

基于视觉属性的类别层次: 以视觉属 (visual genus) 作为父类别共享属性（如"金翅雀"的视觉属是"雀"），以视觉差 (visual differentia) 作为区分兄弟类别的属性（如"深红色面部和黄黑色翅膀"）。标注过程要求标注者验证这些具体视觉属性而非直接匹配抽象类别名。
交互式众包问答框架: 根据预定义对象层次动态生成问题。标注者从根节点开始回答"是否具有某视觉差属性"的是/否问题，逐层向下直到无法继续细分。算法 VisClassify 实现了递归的层次化视觉分类过程。
多层级标签输出: 最终数据集获得多层级标签：不同粒度的细粒度类别标签、视觉属性标签和视觉特征的自然语言描述，适用于对象识别、细粒度分类、零样本识别和图像描述等多种任务。

核心算法 VisClassify¶

递归层次化视觉分类过程（Algorithm 1）：以预定义层次树 \(H\) 为基础，从根节点开始向标注者提问"是否具有该节点的视觉差属性"。若回答"否"则直接 Discharge 该图像；若回答"是"则记录当前层级标签，继续遍历子节点，直到当前节点无子类或标注者否定所有子类的视觉差。每个分支点的问题由知识库中预定义的视觉差属性动态生成，而非让标注者自由判断类别名称。

损失函数 / 训练策略¶

本文为标注方法论工作，不涉及模型训练。

实验关键数据¶

主实验¶

通过众包实验验证方法有效性，标注者反馈讨论了优化众包设置的方向。与无约束自由标注相比，基于视觉属性的约束标注显著提高了标注一致性和准确性。实验中标注者通过回答层次化视觉属性问题来标注鸟类图像（如区分"金翅雀"和"绿雀"需验证"深红色面部"这一视觉差），结果显示不同背景的标注者在视觉属性引导下达成了更高一致性。最终构建的数据集包含多粒度标签、视觉属性标签和自然语言描述，可直接服务于对象识别、细粒度分类、零样本识别和图像描述等多任务。

关键发现¶

视觉属性约束有效减少了标注者间的主观性差异
层次化问答流程降低了标注任务的认知负担
多层级标签为多种下游任务提供了更丰富的监督信号

亮点与洞察¶

从语义鸿沟问题出发系统性地重新设计标注流程，立意好
视觉属/视觉差的概念化设计具有哲学深度
多层级标签输出增加了数据集的通用性
标注过程中每个类别通过 WordNet 和 Wikipedia 等知识库精确定义，消除了自然语言多义性引入的模糊
Label Disambiguation 步骤为每个标签分配唯一概念标识符（如 "1-1" 和 "2-5-3"），解决多义词问题
Object Localization 步骤使用目标定位模型自动裁剪多目标图像为单目标图像，消除对象歧义

局限与展望¶

预定义视觉属性层次需要领域专家参与构建，扩展成本高
仅针对对象识别场景，对场景理解、动作识别等任务适用性有限
实验规模较小，未在大规模数据集上充分验证
视觉差属性的定义依赖分类学中的 canons 准则，对不同文化背景的标注者适应性待验证
未探讨与自动化标注工具（如 MLLM 辅助标注）的结合可能性

评分¶

5/10 — 问题定义有价值，但缺乏大规模实验验证和量化改进指标。

标注方法论的四步策略（Label Definition → Label Disambiguation → Object Localization → Visual Classification）体现了从知识表示到众包执行的完整流程设计。