Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception¶
会议: CVPR 2025
arXiv: 2603.11556
代码: 待确认
领域: 图像编辑 / 美学增强
关键词: 图像美学增强, 扩散模型, 多模态感知, 弱监督, ControlNet
一句话总结¶
提出 DIAE,通过多模态美学感知模块(MAP)将模糊美学指令转化为 HSV/轮廓图+文本的多模态控制信号,并构建"非完美配对"数据集 IIAEData 配合双分支监督策略实现弱监督美学增强,在 LAION 和 MLLM 美学评分上达 SOTA。
研究背景与动机¶
- 领域现状:图像美学增强(IAE)要求模型具备美学感知和创造性编辑——识别颜色、构图、光线缺陷并改进。
- 现有痛点:(1) 扩散模型文本编码器难理解抽象美学指令;(2) 缺乏"完美配对"训练数据(内容相同、美学不同)。
- 核心矛盾:美学是高层人类感知,难以用纯文本传达给生成模型。
- 本文要解决什么:让扩散模型理解并执行美学增强,解决训练数据缺乏。
- 切入角度:视觉模态辅助文本传达美学 + "非完美配对"图像弱监督。
- 核心idea一句话:美学感知=文本+视觉表示,弱监督=双分支训练。
方法详解¶
整体框架¶
三部分:IIAEData 数据集(LLaVA匹配+UNIAA评估)-> MAP 多模态美学感知(HSV+轮廓+文本控制信号)-> 双分支监督(语义保内容+美学学质量)。
关键设计¶
- IIAEData 数据集
- 做什么:构建语义相同但美学不同的弱配对训练集
- 核心思路:AVA/TAD66K/KonIQ/FLICKR 筛选高/低 MOS -> LLaVA caption -> 语义匹配 -> UNIAA 美学评估
-
规模:47.5K(45K训练+1.5K测试)
-
多模态美学感知(MAP)
- 做什么:将模糊美学文本转化为可理解的多模态控制信号
- 核心思路:颜色用 HSV图+文本,结构用轮廓图+文本。CNN 提取视觉特征,CLIP 编码文本,ControlNet 注入 UNet
-
设计动机:HSV 贴合人类颜色感知,轮廓图强调空间排列
-
双分支监督
- 做什么:解决非完美配对数据无法直接全监督
- 核心思路:参数 t_s 分两时段。前期输入图像监督保语义;全程参考图像监督学美学
- 总损失:L = L_ref + lambda * L_inp,t_s 默认 900
损失函数 / 训练策略¶
基于 SD v1.5,AdamW lr=1e-5,4xA800,100K iterations。
实验关键数据¶
主实验¶
| 方法 | LAION(256) | LAION(512) | MLLM(256) | MLLM(512) | CLIP-I(256) | CLIP-I(512) |
|---|---|---|---|---|---|---|
| Original | 4.962 | 5.123 | 3.243 | 3.300 | 1.000 | 1.000 |
| InstructPix2Pix | 4.991 | 5.396 | 3.264 | 3.325 | 0.764 | 0.690 |
| DOODL | 5.102 | 5.140 | 3.255 | 3.297 | 0.775 | 0.703 |
| DIAE | 5.324 | 6.012 | 3.339 | 3.662 | 0.772 | 0.784 |
消融实验¶
| 配置 | LAION | MLLM | CLIP-I |
|---|---|---|---|
| DIAE (w/o visual) | 5.250 | 3.343 | 0.623 |
| DIAE (w/o text) | 5.428 | 3.410 | 0.792 |
| DIAE (完整) | 5.668 | 3.501 | 0.778 |
关键发现¶
- 512分辨率 LAION +17.4%, MLLM +11.0%
- 去掉视觉模态后内容一致性大幅下降
- 对低 MOS 图像改善更显著
- DIAE 不凭空添加/删除内容
亮点与洞察¶
- 美学分解为颜色+结构两维度,视觉+文本多模态表示
- "非完美配对"+弱监督范式巧妙规避高成本
- 双分支通过 t_s 精确控制语义保留vs美学增强
- 可与 MLLM 结合实现端到端
局限性 / 可改进方向¶
- 未处理人像场景
- 基于 SD v1.5
- t_s 需调优
相关工作与启发¶
- InstructPix2Pix 的"完美配对"数据构建思路与本文的"非完美配对"形成互补——两者代表了监督信号的两种极端
- DOODL/RAHF 用美学评分做 classifier guidance 是另一条思路,但不修改模型行为
- ControlNet 的 adding structure 被本文创新性地扩展为多模态美学控制(HSV+轮廓+文本)
- StyleDiffusion 的 content-style 解耦框架启发了本文的双分支监督设计
- Q-ALIGN 等美学 MLLM 的进步使得自动生成美学评估文本成为可能,为 DIAE 的 MAP 模块提供了输入
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义和多模态美学感知有创意
- 实验充分度: ⭐⭐⭐ 对比方法较少
- 写作质量: ⭐⭐⭐ 整体清晰
- 价值: ⭐⭐⭐⭐ 美学增强实际需求强烈