跳转至

Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception

会议: CVPR 2025
arXiv: 2603.11556
代码: 待确认
领域: 图像编辑 / 美学增强
关键词: 图像美学增强, 扩散模型, 多模态感知, 弱监督, ControlNet

一句话总结

提出 DIAE,通过多模态美学感知模块(MAP)将模糊美学指令转化为 HSV/轮廓图+文本的多模态控制信号,并构建"非完美配对"数据集 IIAEData 配合双分支监督策略实现弱监督美学增强,在 LAION 和 MLLM 美学评分上达 SOTA。

研究背景与动机

  1. 领域现状:图像美学增强(IAE)要求模型具备美学感知和创造性编辑——识别颜色、构图、光线缺陷并改进。
  2. 现有痛点:(1) 扩散模型文本编码器难理解抽象美学指令;(2) 缺乏"完美配对"训练数据(内容相同、美学不同)。
  3. 核心矛盾:美学是高层人类感知,难以用纯文本传达给生成模型。
  4. 本文要解决什么:让扩散模型理解并执行美学增强,解决训练数据缺乏。
  5. 切入角度:视觉模态辅助文本传达美学 + "非完美配对"图像弱监督。
  6. 核心idea一句话:美学感知=文本+视觉表示,弱监督=双分支训练。

方法详解

整体框架

三部分:IIAEData 数据集(LLaVA匹配+UNIAA评估)-> MAP 多模态美学感知(HSV+轮廓+文本控制信号)-> 双分支监督(语义保内容+美学学质量)。

关键设计

  1. IIAEData 数据集
  2. 做什么:构建语义相同但美学不同的弱配对训练集
  3. 核心思路:AVA/TAD66K/KonIQ/FLICKR 筛选高/低 MOS -> LLaVA caption -> 语义匹配 -> UNIAA 美学评估
  4. 规模:47.5K(45K训练+1.5K测试)

  5. 多模态美学感知(MAP)

  6. 做什么:将模糊美学文本转化为可理解的多模态控制信号
  7. 核心思路:颜色用 HSV图+文本,结构用轮廓图+文本。CNN 提取视觉特征,CLIP 编码文本,ControlNet 注入 UNet
  8. 设计动机:HSV 贴合人类颜色感知,轮廓图强调空间排列

  9. 双分支监督

  10. 做什么:解决非完美配对数据无法直接全监督
  11. 核心思路:参数 t_s 分两时段。前期输入图像监督保语义;全程参考图像监督学美学
  12. 总损失:L = L_ref + lambda * L_inp,t_s 默认 900

损失函数 / 训练策略

基于 SD v1.5,AdamW lr=1e-5,4xA800,100K iterations。

实验关键数据

主实验

方法 LAION(256) LAION(512) MLLM(256) MLLM(512) CLIP-I(256) CLIP-I(512)
Original 4.962 5.123 3.243 3.300 1.000 1.000
InstructPix2Pix 4.991 5.396 3.264 3.325 0.764 0.690
DOODL 5.102 5.140 3.255 3.297 0.775 0.703
DIAE 5.324 6.012 3.339 3.662 0.772 0.784

消融实验

配置 LAION MLLM CLIP-I
DIAE (w/o visual) 5.250 3.343 0.623
DIAE (w/o text) 5.428 3.410 0.792
DIAE (完整) 5.668 3.501 0.778

关键发现

  • 512分辨率 LAION +17.4%, MLLM +11.0%
  • 去掉视觉模态后内容一致性大幅下降
  • 对低 MOS 图像改善更显著
  • DIAE 不凭空添加/删除内容

亮点与洞察

  • 美学分解为颜色+结构两维度,视觉+文本多模态表示
  • "非完美配对"+弱监督范式巧妙规避高成本
  • 双分支通过 t_s 精确控制语义保留vs美学增强
  • 可与 MLLM 结合实现端到端

局限性 / 可改进方向

  • 未处理人像场景
  • 基于 SD v1.5
  • t_s 需调优

相关工作与启发

  • InstructPix2Pix 的"完美配对"数据构建思路与本文的"非完美配对"形成互补——两者代表了监督信号的两种极端
  • DOODL/RAHF 用美学评分做 classifier guidance 是另一条思路,但不修改模型行为
  • ControlNet 的 adding structure 被本文创新性地扩展为多模态美学控制(HSV+轮廓+文本)
  • StyleDiffusion 的 content-style 解耦框架启发了本文的双分支监督设计
  • Q-ALIGN 等美学 MLLM 的进步使得自动生成美学评估文本成为可能,为 DIAE 的 MAP 模块提供了输入

评分

  • 新颖性: ⭐⭐⭐⭐ 问题定义和多模态美学感知有创意
  • 实验充分度: ⭐⭐⭐ 对比方法较少
  • 写作质量: ⭐⭐⭐ 整体清晰
  • 价值: ⭐⭐⭐⭐ 美学增强实际需求强烈