EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis¶
会议: CVPR 2026
arXiv: 2511.12554
代码: 暂无
领域: 多模态VLM / 视觉情感分析
关键词: 视觉情感分析, 情感数据集, B-A-S三元组, 维度情感空间, 可解释模型
一句话总结¶
提出 EmoVerse,一个219K规模的视觉情感数据集,通过知识图谱启发的Background-Attribute-Subject三元组实现词级和主体级情感归因,同时提供离散CES和连续1024维DES双情感标注,配合多阶段标注验证流水线和基于Qwen2.5-VL的可解释情感模型。
研究背景与动机¶
- 领域现状:视觉情感分析(VEA)旨在弥合视觉内容与人类情感响应之间的情感鸿沟。现有数据集(FI 23K,EmoSet 118K,EmoArt 130K)粒度粗,仅提供整图的单一离散情感标签。
- 现有痛点:规模有限;标注可靠性不足;缺乏可解释的情感接地——无法知道是什么视觉元素引发了情感;只有离散分类标签,无法表达混合情感或强度变化。
- 核心矛盾:情感本身连续、多维、主观,但现有标注方式是离散简化,限制了模型的理解深度。
- 本文要解决什么? 构建同时具备细粒度可解释标注、双空间表示、大规模多样性的数据集,并提供配套可解释模型。
- 切入角度:借鉴知识图谱三元组,将图像情感分解为Background-Attribute-Subject三个语义组件,各组件接地到具体视觉区域。
- 核心idea一句话:用B-A-S三元组和CES+DES双空间标注,将视觉情感分析从单标签升级为多层次可解释归因。
方法详解¶
整体框架¶
三大组件:(1) EmoVerse数据集219K图像+多层标注,(2) 标注验证流水线(多VLM交叉+Critic Agent),(3) 可解释情感模型(Qwen2.5-VL微调)。
关键设计¶
- B-A-S三元组标注:
- 做什么:将图像情感分解为Background(场景)、Attribute(氛围属性)、Subject(主体对象)三组件
- 核心思路:每个B-A-S元素通过Grounding DINO定位+SAM分割,接地到图像具体像素区域,提供词级和主体级情感归因
-
设计动机:不只知道"这张图让人快乐",还知道"是因为什么视觉元素引发了快乐"
-
CES+DES双空间标注:
- 做什么:每张图同时标注离散情感类别和连续情感向量
- 核心思路:CES采用Mikels 8类模型并提供置信度分数;DES通过可解释模型投影到1024维连续情感空间
-
设计动机:CES直观可解释适合分类,DES支持情感强度估计和平滑插值
-
多阶段标注验证流水线:
- 做什么:自动化高质量标注,最小化人工干预
- 核心思路:三阶段——Gemini 2.5和GPT-4o双VLM独立标注;EmoViT对比校准情感标签;Critic Agent用Chain-of-Thought推理验证一致性
-
设计动机:情感标注主观性极强,多模型交叉+CoT推理大幅提升可靠性
-
可解释情感模型:
- 做什么:基于Qwen2.5-VL-3B微调,输出DES embedding和文本归因解释
- 核心思路:两轮微调——先用属性标注提升归因能力,再用类别标签提升分类稳定性
- 设计动机:端到端映射视觉线索到连续情感空间,归因解释让判断可追溯
数据集构建¶
- 三部分来源:已有数据集集成(EmoSet+EmoArt+Flickr30K)、B-A-S驱动的网络图像采集、AIGC图像(约25K,12.17%)
- 总规模:219K图像,每张有B-A-S三元组+CES 8类+置信度+DES 1024维+主体级bbox和mask
实验关键数据¶
数据集规模对比¶
| 数据集 | 规模 | 类别标注 | 描述 | 词级标注 | 置信度 | 主体级标注 |
|---|---|---|---|---|---|---|
| FI | 23K | 2类 | 无 | 无 | 无 | 无 |
| Artemis | 80K | 8类 | 有 | 无 | 无 | 无 |
| EmoSet | 118K | 8类 | 无 | 无 | 无 | 无 |
| EmoArt | 130K | 12类 | 有 | 无 | 无 | 无 |
| EmoVerse | 219K | 8类+DES | 有 | 有 | 有 | 有 |
消融实验¶
| 组件 | 效果 | 说明 |
|---|---|---|
| B-A-S三元组 | 有效 | 提供词级和主体级归因 |
| DES空间 | 有效 | 支持连续情感表示 |
| AIGC数据 | 有效填充长尾 | 12%生成图像覆盖罕见情感 |
| 多阶段验证 | 高一致性 | 三模型交叉+CoT推理 |
关键发现¶
- B-A-S三元组让模型不只判断什么情感,还能解释为什么,提升可解释性
- DES空间支持情感插值和距离度量,是离散标签无法实现的能力
- AIGC数据有效填充长尾,覆盖真实图像中罕见的情感场景
亮点与洞察¶
- B-A-S三元组借鉴知识图谱,将情感分析与结构化知识表示结合——最小情感知识单元的概念可推广到审美质量等其他主观属性
- CES+DES双空间设计:离散便于人理解,连续便于机器处理,共存互补
- B-A-S驱动的数据采集形成标注到搜索到标注的正向循环
- 标注验证流水线是大规模主观标注的有效范式
局限性 / 可改进方向¶
- 情感主观性仍是根本挑战,不同文化背景的差异难以完全消除
- Mikels 8类情感可能不覆盖复合情感(如nostalgic、bittersweet)
- 1024维DES空间的单个维度语义不明确
- AIGC数据(12%)可能引入生成模型偏差
- 可解释模型基于3B规模,推理能力有限
相关工作与启发¶
- vs EmoSet: EmoSet提供辅助属性但无结构化分解,EmoVerse的B-A-S三元组更系统可解释
- vs Artemis: Artemis有描述但无视觉接地,EmoVerse通过Grounding DINO+SAM实现主体级接地
- 将grounding从物体定位扩展到情感归因,是grounding技术的新应用场景
评分¶
- 新颖性: ⭐⭐⭐⭐ B-A-S三元组和双空间标注是新颖贡献
- 实验充分度: ⭐⭐⭐⭐ 与多个数据集对比,标注质量验证充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,插图丰富
- 价值: ⭐⭐⭐⭐ 219K可解释情感数据集对VEA社区有重要价值