EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis¶

会议: CVPR 2026
arXiv: 2511.12554
代码: 暂无
领域: 多模态VLM / 视觉情感分析
关键词: 视觉情感分析, 情感数据集, B-A-S三元组, 维度情感空间, 可解释模型

一句话总结¶

提出 EmoVerse，一个219K规模的视觉情感数据集，通过知识图谱启发的Background-Attribute-Subject三元组实现词级和主体级情感归因，同时提供离散CES和连续1024维DES双情感标注，配合多阶段标注验证流水线和基于Qwen2.5-VL的可解释情感模型。

领域现状：视觉情感分析(VEA)旨在弥合视觉内容与人类情感响应之间的情感鸿沟。现有数据集（FI 23K，EmoSet 118K，EmoArt 130K）粒度粗，仅提供整图的单一离散情感标签。
现有痛点：规模有限；标注可靠性不足；缺乏可解释的情感接地——无法知道是什么视觉元素引发了情感；只有离散分类标签，无法表达混合情感或强度变化。
核心矛盾：情感本身连续、多维、主观，但现有标注方式是离散简化，限制了模型的理解深度。
本文要解决什么？ 构建同时具备细粒度可解释标注、双空间表示、大规模多样性的数据集，并提供配套可解释模型。
切入角度：借鉴知识图谱三元组，将图像情感分解为Background-Attribute-Subject三个语义组件，各组件接地到具体视觉区域。
核心idea一句话：用B-A-S三元组和CES+DES双空间标注，将视觉情感分析从单标签升级为多层次可解释归因。

三大组件：(1) EmoVerse数据集219K图像+多层标注，(2) 标注验证流水线（多VLM交叉+Critic Agent），(3) 可解释情感模型（Qwen2.5-VL微调）。

B-A-S三元组标注:
做什么：将图像情感分解为Background（场景）、Attribute（氛围属性）、Subject（主体对象）三组件
核心思路：每个B-A-S元素通过Grounding DINO定位+SAM分割，接地到图像具体像素区域，提供词级和主体级情感归因
设计动机：不只知道"这张图让人快乐"，还知道"是因为什么视觉元素引发了快乐"
CES+DES双空间标注:
做什么：每张图同时标注离散情感类别和连续情感向量
核心思路：CES采用Mikels 8类模型并提供置信度分数；DES通过可解释模型投影到1024维连续情感空间
设计动机：CES直观可解释适合分类，DES支持情感强度估计和平滑插值
多阶段标注验证流水线:
做什么：自动化高质量标注，最小化人工干预
核心思路：三阶段——Gemini 2.5和GPT-4o双VLM独立标注；EmoViT对比校准情感标签；Critic Agent用Chain-of-Thought推理验证一致性
设计动机：情感标注主观性极强，多模型交叉+CoT推理大幅提升可靠性
可解释情感模型:
做什么：基于Qwen2.5-VL-3B微调，输出DES embedding和文本归因解释
核心思路：两轮微调——先用属性标注提升归因能力，再用类别标签提升分类稳定性
设计动机：端到端映射视觉线索到连续情感空间，归因解释让判断可追溯

数据集	规模	类别标注	描述	词级标注	置信度	主体级标注
FI	23K	2类	无	无	无	无
Artemis	80K	8类	有	无	无	无
EmoSet	118K	8类	无	无	无	无
EmoArt	130K	12类	有	无	无	无
EmoVerse	219K	8类+DES	有	有	有	有