EmoEdit: Evoking Emotions through Image Manipulation¶
会议: CVPR 2025
arXiv: 2405.12661
代码: 无
领域: 扩散模型
关键词: 情感图像操纵, 情感适配器, 扩散模型编辑, 内容感知, 视觉情感分析
一句话总结¶
本文提出 EmoEdit,首个通过内容修改(而非仅颜色/风格调整)来唤起指定情感的图像操纵框架,构建了 40,120 对的 EmoEditSet 数据集,设计了可即插即用的 Emotion Adapter,在结构保持和情感唤起之间取得了显著平衡。
研究背景与动机¶
领域现状:情感图像操纵(Affective Image Manipulation, AIM)旨在修改用户提供的图像以唤起特定情感。现有方法主要通过调整颜色和风格来实现,如 CLVA 和 AIF 将真实图像转为艺术风格。扩散模型在图像编辑中表现出色,但在情感操纵方面缺乏知识。
现有痛点:(1) 颜色/风格调整无法唤起精确和深层的情感变化——心理学研究表明视觉内容(而非仅颜色)是关键情感刺激;(2) 现有 AIM 方法多限于二元情感分类(正/负),粒度不够;(3) DALL-E 3 能传达情感但不保持原图结构,IP2P 保持结构但缺乏情感表达——情感唤起和结构保持天然矛盾。
核心矛盾:情感唤起需要有意义的内容修改(如添加蝴蝶传达满足感),但过大的修改会破坏原图结构。需要找到自动选择"恰当的、与上下文匹配的"情感语义修改的方法。
本文目标 (1) 缺乏大规模 AIM 数据集——如何自动构建高质量的情感对照数据?(2) 如何让扩散模型具备情感意识?(3) 如何在不指定具体编辑指令的情况下,仅凭情感词就自动选择合适的内容修改?
切入角度:基于心理学中"视觉内容是情感刺激"的洞察,对 EmoSet 做聚类构建八种情感的"情感因子树",每种情感对应多种语义表示(如"满足"→书与花、彩虹、蝴蝶等),然后数据驱动地训练 Emotion Adapter 学习基于上下文的语义选择。
核心 idea:构建情感因子树和大规模数据集教会扩散模型"什么样的内容修改能唤起什么情感",实现仅需情感词即可驱动的内容感知编辑。
方法详解¶
整体框架¶
EmoEdit 分两大步:(1) 构建 EmoEditSet 数据集——从 EmoSet 做聚类提取情感因子树,用 IP2P 生成源-目标图像对,经四重指标筛选和人工审核;(2) 训练 Emotion Adapter——基于 Q-Former 架构设计情感适配器,结合 diffusion loss 和 instruction loss 训练,使之可即插即用到各种扩散模型中。推理时只需提供输入图像和目标情感词。
关键设计¶
-
情感因子树与 EmoEditSet 数据集构建:
- 功能:提供大规模、语义多样的情感操纵配对数据
- 核心思路:对 EmoSet 中八种情感(amusement、awe、contentment、excitement、anger、disgust、fear、sadness)分别用 CLIP 语义嵌入做聚类,提取代表性视觉因子。用 GPT-4V 为每个聚类生成内容摘要并分类为物体/场景/动作/表情四类,构建层次化的"情感因子树"。然后收集 15,531 张源图(来自 MagicBrush、MA5K、Unsplash),用 IP2P 以情感因子为指令生成目标候选,通过 CLIP 图像相似度(0.75-0.9)、CLIP 文本相似度(>0.25)、情感分数(>0.3)和美学分数四重过滤 + 人工审核,最终获得 40,120 对数据,平均每张图 2.6 个情感方向
- 设计动机:缺乏大规模 AIM 数据是根本瓶颈。通过聚类而非人工标注获取情感因子,结合自动生成和多维度过滤,可扩展地构建高质量数据集
-
Emotion Adapter(情感适配器):
- 功能:使扩散模型具备情感意识,自动选择最适合输入图像的情感语义表示
- 核心思路:基于 Q-Former 构建。可学习查询 \(q\) 作为"情感字典",目标情感 \(e_t\) 和输入图像 \(e_i\) 作为索引。自注意力层先根据目标情感选择相关语义:\(A_s = \text{softmax}(\frac{[q;e_t]W_q^s([q;e_t]W_k^s)^T}{\sqrt{d_k}})[q;e_t]W_v^s\)。交叉注意力层再结合图像信息选择最匹配的表示:\(A_c = \text{softmax}(\frac{A_s W_q^c(e_i W_k^c)^T}{\sqrt{d_k}})e_i W_v^c\)。迭代多次后输出情感嵌入 \(c_e\),作为条件注入 IP2P 的去噪过程
- 设计动机:每种情感对应多种语义表示(如"恐惧"可以是鬼怪、黑暗、暴风雨等),需要根据输入图像的内容动态选择。Q-Former 的查询机制天然适合这种"根据条件从字典中检索"的操作
-
Instruction Loss(指令损失):
- 功能:捕捉情感数据对中的语义变化,避免模型仅依赖像素颜色调整
- 核心思路:在标准 diffusion loss \(\mathcal{L}_{LDM}\) 之外增加 instruction loss:\(\mathcal{L}_{ins} = \frac{1}{M}\|c_e - \mathcal{E}_{txt}(t_{ins})\|_2^2\),将 Emotion Adapter 输出的情感嵌入 \(c_e\) 与数据集中对应的内容指令(如"添加彩色蝴蝶")的文本编码 \(\mathcal{E}_{txt}(t_{ins})\) 对齐。总损失为 \(\mathcal{L} = \mathcal{L}_{LDM} + \mathcal{L}_{ins}\)
- 设计动机:仅用 diffusion loss 训练时模型倾向于做颜色纹理级调整(像素级最优解),产生颜色伪影但缺乏有意义的内容修改。Instruction loss 通过语义级监督强制模型学习内容变化
损失函数 / 训练策略¶
训练时冻结 IP2P 参数,仅训练 Emotion Adapter。使用 diffusion loss 保证像素级保真度,instruction loss 保证语义级情感表达。推理时可通过调节 image guidance scale 控制情感强度和结构保持的平衡。
实验关键数据¶
主实验¶
在 405 张测试图(8 个情感方向,共 3,240 对)上评估:
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | CLIP-I↑ | Emo-A↑ | Emo-S↑ |
|---|---|---|---|---|---|---|
| SDEdit | 15.43 | 0.415 | 0.459 | 0.638 | 38.21% | 0.221 |
| PnP | 14.41 | 0.436 | 0.381 | 0.851 | 23.83% | 0.095 |
| ControlNet | 11.98 | 0.292 | 0.603 | 0.686 | 36.33% | 0.213 |
| CLVA | 12.61 | 0.397 | 0.479 | 0.757 | 14.04% | 0.017 |
| AIF | 14.05 | 0.537 | 0.493 | 0.828 | 12.74% | 0.004 |
| EmoEdit | 16.62 | 0.571 | 0.289 | 0.828 | 50.09% | 0.335 |
人类评估¶
| 方法 | 结构保持↑ | 情感忠实↑ | 综合平衡↑ |
|---|---|---|---|
| SDEdit | 11.71% | 10.85% | 5.07% |
| BlipDiff | 15.12% | 8.35% | 4.88% |
| EmoEdit | 70.12% | 75.73% | 89.12% |
关键发现¶
- EmoEdit 在所有像素级指标(PSNR 16.62, SSIM 0.571, LPIPS 0.289)上最优,同时情感准确率(50.09%)远超所有方法
- 情感增量分数 Emo-S(0.335)比次优 SDEdit(0.221)高 52%,说明情感修改更有效
- 消融证实 Emotion Adapter 是必要的(去掉后图像几乎不变),instruction loss 保证语义清晰,diffusion loss 保证结构
- Emotion Adapter 可直接插入 ControlNet、BlipDiff 等其他模型增强其情感能力
- 可扩展到风格化图像生成(与 Composable Diffusion 结合),保持艺术风格的同时唤起情感
亮点与洞察¶
- 开创性地引入内容修改做情感操纵:超越了颜色/风格调整的限制,从心理学出发构建了系统的"情感因子树"。这个数据构建范式可扩展到其他抽象属性的编辑
- Emotion Adapter 的即插即用设计:训练一次后可直接插入任何基于 IP2P 或 Stable Diffusion 的编辑/生成模型。这种模块化情感增强的思路有广泛应用价值
- EmoEditSet 数据集贡献:40,120 对带情感方向和内容指令的数据,可作为 AIM 领域的基础 benchmark
局限与展望¶
- 仅支持 Mikels 的 8 种情感类别,现实中情感远更复杂和细粒度
- 情感因子树高度依赖 EmoSet 的覆盖范围,可能存在偏差
- CLIP 图像相似度作为结构保持的代理指标不够精确
- 数据集构建依赖 IP2P 生成,受限于 IP2P 本身的编辑能力和质量上限
- 用户无法指定具体修改内容,完全依赖模型自动选择,有时会选择不恰当的语义
相关工作与启发¶
- vs CLVA / AIF: 这些是风格迁移类 AIM 方法,仅改变颜色风格但情感效果有限(Emo-S < 0.02)。EmoEdit 通过内容修改实现更强的情感唤起
- vs InstructPix2Pix: IP2P 能做具体指令的编辑但不理解情感;EmoEdit 的 Emotion Adapter 为 IP2P 注入情感知识,只需情感词即可工作
- vs SDEdit: SDEdit 有一定情感理解能力(Emo-A 38.21%),但严重破坏图像结构(PSNR 15.43, SSIM 0.415)。EmoEdit 在更好保持结构的同时情感效果更强
评分¶
- 新颖性: ⭐⭐⭐⭐ 从心理学出发做内容感知 AIM 是新方向,情感因子树+Adapter 设计有创意
- 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融+跨模型迁移,全面但缺少大规模对比
- 写作质量: ⭐⭐⭐⭐ 故事线清晰,图表直观,数据集构建过程描述详细
- 价值: ⭐⭐⭐⭐ 开辟了内容感知 AIM 新方向,数据集和 Adapter 有社区价值
相关论文¶
- [ICCV 2025] Make Me Happier: Evoking Emotions Through Image Diffusion Models
- [CVPR 2025] Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking
- [CVPR 2025] Interpretable Generative Models through Post-hoc Concept Bottlenecks
- [CVPR 2025] Visual Lexicon: Rich Image Features in Language Space
- [CVPR 2025] TurboFill: Adapting Few-Step Text-to-Image Model for Fast Image Inpainting