EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis¶

会议: CVPR2026
arXiv: 2511.12554
代码: 待确认
领域: multimodal_vlm
关键词: 视觉情感分析, 情感表示数据集, 知识图谱, 可解释性, 多模态大模型

一句话总结¶

构建 EmoVerse——首个同时覆盖 CES（Mikels 8 类离散情感）和 DES（1024 维连续情感空间）的大规模可解释视觉情感数据集（219K+ 图像），提出 B-A-S（Background-Attribute-Subject）三元组知识图谱标注体系和 Annotation & Verification Pipeline（Gemini/GPT-4o + EmoViT + CoT Critic Agent），并基于 Qwen2.5-VL-3B 微调实现 1024 维 DES 投射与情感归因解释。

背景与动机¶

领域现状：视觉情感分析（Visual Emotion Analysis, VEA）旨在从图像中预测观者的情感反应。现有数据集（FI、EmoSet、Instagram 等）多采用离散情感分类（Mikels 8 类或 VAD 三维），标注维度单一。
现有痛点：(1) 缺乏开源的大规模可解释情感数据集——现有数据集只提供情感类别标签，不解释"为什么引发这种情感"；(2) 离散情感标签（CES）无法捕捉细粒度情感变化，连续表示（DES）的数据集几乎不存在；(3) 缺少 subject-level 的实例定位——不知道图像中哪个主体触发了哪种情感。
核心矛盾：VEA 领域急需可解释性和细粒度标注，但人工标注成本极高（1024 维连续空间不可能人工标注），传统众包方式无法覆盖 word-level、subject-level、CES、DES 四个维度。
本文目标：如何构建一个兼具 CES 和 DES、具有可解释性标注、且规模足够大的视觉情感数据集？
切入角度：利用 MLLM（Gemini 2.5、GPT-4o）做自动标注，配合多轮验证 pipeline 保证质量，引入知识图谱结构化情感归因。
核心 idea：B-A-S 三元组将情感分解为 Background（背景场景）、Attribute（视觉属性如颜色/光线）、Subject（主体对象），配合 Grounding DINO + SAM 实现 subject 定位，用 MLLM pipeline 完成标注-验证-修正闭环。

方法详解¶

整体框架¶

EmoVerse 的构建包括四个阶段：(1) 数据收集与清洗；(2) B-A-S 三元组标注 + CES/DES 生成；(3) 多轮验证与修正（Annotation & Verification Pipeline）；(4) Subject 实例定位（Grounding DINO + SAM）。最终在此数据集上微调 Qwen2.5-VL-3B 作为可解释情感分析模型。

关键设计¶

B-A-S（Background-Attribute-Subject）三元组标注:
- 功能：将图像情感归因分解为三个维度的知识图谱结构
- 核心思路：受知识图谱启发，每张图像标注为 \((B, A, S)\) 三元组——\(B\) 描述场景背景（如"暴风雨中的海岸"）、\(A\) 描述视觉属性（如"昏暗光线、冷色调"）、\(S\) 描述关键主体（如"独自站立的人"）。三者共同解释情感触发原因
- 设计动机：传统标注只给一个情感标签（如"sadness"），不解释原因。B-A-S 三元组让情感归因可追溯，支持下游可解释分析
混合数据来源:
- 功能：从多个来源收集 219K+ 图像，确保情感多样性
- 核心思路：(a) 现有情感数据集：EmoSet、EmoArt；(b) 通用数据集：Flickr30k（自然场景）；(c) 网络搜索：针对特定情感关键词爬取；(d) AIGC 生成：用 Seedream 模型按情感 prompt 生成约 25K 张图像，补充稀缺情感类别
- 设计动机：单一来源的数据集存在偏置（如 EmoSet 以自然图为主），AIGC 生成可精准补充长尾情感分布
Annotation & Verification Pipeline:
- 功能：利用 MLLM 自动标注并通过多轮验证保证标注质量
- 核心思路：(a) 初标：Gemini 2.5 和 GPT-4o 分别对图像生成情感标注（CES 类别 + DES 向量 + B-A-S 三元组）；(b) 情感验证：用预训练的 EmoViT（情感分类专家模型）检验 CES 标签一致性；(c) CoT Critic Agent：对初标结果进行 Chain-of-Thought 批判性审查，将每条标注判定为 valid（保留）、revisable（可修正，返回重标）、discarded（丢弃）；(d) 人工抽检：对 Critic Agent 的输出进行抽样人工验证
- 设计动机：纯 MLLM 标注的噪声率不可忽视（尤其 DES 1024 维空间），多轮验证 + 专家模型交叉检查 + CoT 批判性审查可有效降噪
Subject-Level 实例定位:
- 功能：为 B-A-S 中的 Subject 提供 bounding box 和 segmentation mask
- 核心思路：(a) 将 B-A-S 三元组中的 Subject 文本描述输入 Grounding DINO，获取 bounding box；(b) 用 SAM（Segment Anything Model）基于 bbox prompt 生成像素级分割 mask
- 设计动机：Subject-level 实例定位使模型能学习"图像中哪个区域/对象引发了哪种情感"，支持局部情感归因
可解释情感模型：Qwen2.5-VL-3B 微调:
- 功能：在 EmoVerse 上微调多模态模型，实现 CES 分类 + DES 投射 + 情感归因文本生成
- 核心思路：两轮微调——第一轮学习 CES/DES 预测，第二轮学习基于 B-A-S 生成情感归因解释。DES 通过 1024 维线性投射头实现。训练用交叉熵 Loss（CE Loss）
- 设计动机：端到端多任务训练使模型同时具备情感预测和可解释性能力

数据集统计¶

总量：219K+ 图像
CES 覆盖：Mikels 8 类（amusement, awe, contentment, excitement, anger, disgust, fear, sadness）
DES 维度：1024 维连续情感空间
标注维度：word-level（情感词）+ subject-level（主体定位）+ CES + DES 全覆盖
AIGC 生成：~25K 张（Seedream）

实验关键数据¶

数据集对比¶

数据集	图像数	CES	DES	可解释标注	Subject 定位
FI	23K	✓	✗	✗	✗
Instagram	42K	✓	✗	✗	✗
EmoSet	118K	✓	✗	部分	✗
EmoArt	80K	✓	✗	✗	✗
EmoVerse	219K+	✓	✓	✓ (B-A-S)	✓ (bbox+mask)

关键发现¶

EmoVerse 是首个同时覆盖 CES 和 DES 的数据集：现有所有数据集均无 DES 标注
B-A-S 三元组提升可解释性：消融显示加入 B-A-S 后情感分类准确率和归因文本质量均有提升
AIGC 数据有效补充长尾：去掉 Seedream 生成数据后，稀缺情感类别（disgust、fear）的分类性能明显下降
Annotation Pipeline 有效降噪：CoT Critic Agent 过滤了约 15-20% 的低质量标注，人工抽检验证 pipeline 输出的准确率 > 90%
Qwen2.5-VL-3B 微调效果：在 EmoVerse 测试集上 CES 分类准确率和 DES 投射相关性均优于基线方法

亮点与洞察¶

B-A-S 三元组是核心贡献：将情感归因结构化为知识图谱风格的三元组，既便于自动标注又支持下游推理，比自由文本描述更规范
MLLM + 专家模型 + CoT Critic 的多轮验证：这套 pipeline 为利用 MLLM 构建大规模标注数据集提供了可复用范式——不是简单地"用 GPT 标注"，而是有质量保证闭环
AIGC 补充长尾分布：用生成模型按需生成特定情感图像是巧妙的数据增强思路，比单纯过采样更有效
Subject-level 定位：Grounding DINO + SAM 的组合将情感分析从图像级推进到区域级，开辟了局部情感归因的新方向

局限与展望¶

DES 1024 维的标注质量完全依赖 MLLM，缺少人工验证金标准——MLLM 对连续情感空间的理解可能存在系统性偏差
Mikels 8 类 CES 体系相对粗粒度，未覆盖 surprise、neutral 等常见情感
AIGC 生成的图像可能带有生成模型的风格偏见，与真实图像的情感表达存在 domain gap
Qwen2.5-VL-3B 较小，更大模型（7B/72B）的表现未知
仅在 EmoVerse 自身测试集上评估，缺少与 FI、EmoSet 等外部数据集的跨数据集泛化实验
CoT Critic Agent 的判定阈值如何选取未充分讨论

评分¶

新颖性: ⭐⭐⭐⭐ B-A-S 三元组和 CES+DES 双表示体系是首创，MLLM 多轮验证 pipeline 有方法论价值
实验充分度: ⭐⭐⭐ 缺少跨数据集泛化实验和更大模型验证
写作质量: ⭐⭐⭐⭐ 数据集构建流程描述详尽，pipeline 各环节动机清晰
价值: ⭐⭐⭐⭐ 填补了可解释视觉情感分析数据集的空白，B-A-S 标注体系和验证 pipeline 可复用性强