跳转至

EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis

会议: CVPR 2026
arXiv: 2511.12554
代码: 暂无
领域: 多模态VLM / 视觉情感分析
关键词: 视觉情感分析, 情感数据集, B-A-S三元组, 维度情感空间, 可解释模型

一句话总结

提出 EmoVerse,一个219K规模的视觉情感数据集,通过知识图谱启发的Background-Attribute-Subject三元组实现词级和主体级情感归因,同时提供离散CES和连续1024维DES双情感标注,配合多阶段标注验证流水线和基于Qwen2.5-VL的可解释情感模型。

研究背景与动机

  1. 领域现状:视觉情感分析(VEA)旨在弥合视觉内容与人类情感响应之间的情感鸿沟。现有数据集(FI 23K,EmoSet 118K,EmoArt 130K)粒度粗,仅提供整图的单一离散情感标签。
  2. 现有痛点:规模有限;标注可靠性不足;缺乏可解释的情感接地——无法知道是什么视觉元素引发了情感;只有离散分类标签,无法表达混合情感或强度变化。
  3. 核心矛盾:情感本身连续、多维、主观,但现有标注方式是离散简化,限制了模型的理解深度。
  4. 本文要解决什么? 构建同时具备细粒度可解释标注、双空间表示、大规模多样性的数据集,并提供配套可解释模型。
  5. 切入角度:借鉴知识图谱三元组,将图像情感分解为Background-Attribute-Subject三个语义组件,各组件接地到具体视觉区域。
  6. 核心idea一句话:用B-A-S三元组和CES+DES双空间标注,将视觉情感分析从单标签升级为多层次可解释归因。

方法详解

整体框架

三大组件:(1) EmoVerse数据集219K图像+多层标注,(2) 标注验证流水线(多VLM交叉+Critic Agent),(3) 可解释情感模型(Qwen2.5-VL微调)。

关键设计

  1. B-A-S三元组标注:
  2. 做什么:将图像情感分解为Background(场景)、Attribute(氛围属性)、Subject(主体对象)三组件
  3. 核心思路:每个B-A-S元素通过Grounding DINO定位+SAM分割,接地到图像具体像素区域,提供词级和主体级情感归因
  4. 设计动机:不只知道"这张图让人快乐",还知道"是因为什么视觉元素引发了快乐"

  5. CES+DES双空间标注:

  6. 做什么:每张图同时标注离散情感类别和连续情感向量
  7. 核心思路:CES采用Mikels 8类模型并提供置信度分数;DES通过可解释模型投影到1024维连续情感空间
  8. 设计动机:CES直观可解释适合分类,DES支持情感强度估计和平滑插值

  9. 多阶段标注验证流水线:

  10. 做什么:自动化高质量标注,最小化人工干预
  11. 核心思路:三阶段——Gemini 2.5和GPT-4o双VLM独立标注;EmoViT对比校准情感标签;Critic Agent用Chain-of-Thought推理验证一致性
  12. 设计动机:情感标注主观性极强,多模型交叉+CoT推理大幅提升可靠性

  13. 可解释情感模型:

  14. 做什么:基于Qwen2.5-VL-3B微调,输出DES embedding和文本归因解释
  15. 核心思路:两轮微调——先用属性标注提升归因能力,再用类别标签提升分类稳定性
  16. 设计动机:端到端映射视觉线索到连续情感空间,归因解释让判断可追溯

数据集构建

  • 三部分来源:已有数据集集成(EmoSet+EmoArt+Flickr30K)、B-A-S驱动的网络图像采集、AIGC图像(约25K,12.17%)
  • 总规模:219K图像,每张有B-A-S三元组+CES 8类+置信度+DES 1024维+主体级bbox和mask

实验关键数据

数据集规模对比

数据集 规模 类别标注 描述 词级标注 置信度 主体级标注
FI 23K 2类
Artemis 80K 8类
EmoSet 118K 8类
EmoArt 130K 12类
EmoVerse 219K 8类+DES

消融实验

组件 效果 说明
B-A-S三元组 有效 提供词级和主体级归因
DES空间 有效 支持连续情感表示
AIGC数据 有效填充长尾 12%生成图像覆盖罕见情感
多阶段验证 高一致性 三模型交叉+CoT推理

关键发现

  • B-A-S三元组让模型不只判断什么情感,还能解释为什么,提升可解释性
  • DES空间支持情感插值和距离度量,是离散标签无法实现的能力
  • AIGC数据有效填充长尾,覆盖真实图像中罕见的情感场景

亮点与洞察

  • B-A-S三元组借鉴知识图谱,将情感分析与结构化知识表示结合——最小情感知识单元的概念可推广到审美质量等其他主观属性
  • CES+DES双空间设计:离散便于人理解,连续便于机器处理,共存互补
  • B-A-S驱动的数据采集形成标注到搜索到标注的正向循环
  • 标注验证流水线是大规模主观标注的有效范式

局限性 / 可改进方向

  • 情感主观性仍是根本挑战,不同文化背景的差异难以完全消除
  • Mikels 8类情感可能不覆盖复合情感(如nostalgic、bittersweet)
  • 1024维DES空间的单个维度语义不明确
  • AIGC数据(12%)可能引入生成模型偏差
  • 可解释模型基于3B规模,推理能力有限

相关工作与启发

  • vs EmoSet: EmoSet提供辅助属性但无结构化分解,EmoVerse的B-A-S三元组更系统可解释
  • vs Artemis: Artemis有描述但无视觉接地,EmoVerse通过Grounding DINO+SAM实现主体级接地
  • 将grounding从物体定位扩展到情感归因,是grounding技术的新应用场景

评分

  • 新颖性: ⭐⭐⭐⭐ B-A-S三元组和双空间标注是新颖贡献
  • 实验充分度: ⭐⭐⭐⭐ 与多个数据集对比,标注质量验证充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,插图丰富
  • 价值: ⭐⭐⭐⭐ 219K可解释情感数据集对VEA社区有重要价值