DIAE: Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception¶

会议: CVPR 2026
arXiv: 2603.11556
代码: 待确认
领域: 图像美学增强 / 扩散模型 / 图像编辑
关键词: 图像美学增强, 扩散模型, 多模态感知, 弱监督学习, ControlNet

一句话总结¶

提出DIAE——一个基于SD1.5的图像美学增强框架，通过多模态美学感知(MAP)将模糊的美学指令转化为HSV+轮廓图的视觉控制信号，配合"不完美配对"数据集IIAEData和双分支监督训练策略，在美学提升(LAION score +17.4%)和内容一致性(CLIP-I 0.784)上同时优于InstructPix2Pix等SOTA编辑方法。

背景与动机¶

图像美学增强需要模型同时具备美学感知力和编辑能力——既要判断图像在色彩、构图、光线上的不足，又要做出恰当的修改。现有扩散模型编辑方法（如InstructPix2Pix、MGIE）在语义编辑上表现好，但在美学增强上面临两个核心瓶颈：(1) 美学指令太抽象（如"欠饱和"、"三分法构图"），简单的文本编码器理解不了这些高层审美概念；(2) 训练需要"完美配对"的图像对（内容相同但美学不同），而这种数据极其昂贵，需要专业摄影师/艺术家手动编辑每张图。

核心问题¶

如何让扩散模型理解并执行模糊的美学增强指令？以及如何在缺乏"完美配对"训练数据的情况下训练美学增强模型？

方法详解¶

整体框架¶

三步pipeline：(1) IIAEData数据集构建——从AVA/TAD66K/KonIQ/FLICKR收集数据，用LLaVA-13b匹配语义相同但美学不同的"不完美配对"图像对(47.5K样本)；(2) 多模态美学感知(MAP)——将美学评估转化为文本+视觉双模态控制信号注入扩散模型；(3) 双分支监督训练——在去噪早期用输入图像监督保持语义，后期用高美学参考图像监督提升美学。

关键设计¶

多模态美学感知(MAP): 将美学评估分为色彩属性和结构属性两类。色彩属性的视觉表示用HSV图(对齐人类色彩感知)，结构属性用HED轮廓图(强调构图/焦点/景别)。文本通过CLIP编码，图像通过CNN编码，生成双模态控制信号输入ControlNet。形式化为: \(cond = \{(F_{col}^I, F_{col}^T), (F_{str}^I, F_{str}^T)\}\)。
IIAEData"不完美配对"数据集: 选低MOS图作为输入、高MOS图作为参考，用LLaVA-13b按语义匹配成对。用UNIAA-LLaVA生成标准化美学评估(色彩/光线/构图/焦点/景别)，最后人工审核。共45K训练+1.5K测试。
双分支监督框架: 通过时间步阈值\(t_s\)（默认900/1000）分割训练——当\(t \leq t_s\)时同时用输入图像(\(L_{inp}\))和参考图像(\(L_{ref}\))监督, 当\(t > t_s\)时仅用参考图像监督。直觉是：去噪早期构建语义(所以要保持输入内容)，后期创建美学属性(所以要对齐参考图的高美学)。

损失函数 / 训练策略¶

\(L = L_{ref} + \lambda L_{inp}\)，其中\(L_{ref}\)和\(L_{inp}\)都是标准去噪MSE损失
基于SD1.5，AdamW优化器，lr=1e-5，4×A800训练100K迭代
生成速度: 256×256约4秒，512×512约9秒(50步去噪)

实验关键数据¶

方法	LAION Score(512)	MLLM Score(512)	CLIP-I(512)
原图	5.123	3.300	1.000
ControlNet	5.522	3.415	0.617
InstructPix2Pix	5.396	3.325	0.690
MGIE	5.519	3.411	0.770
DOODL	5.140	3.297	0.703
DIAE	6.012	3.662	0.784

256分辨率: LAION score +7.3%, MLLM score +3.0%
512分辨率: LAION score +17.4%, MLLM score +11.0%

消融实验要点¶

\(t_s\)敏感性: \(t_s\)越大→保留更多输入图像的美学属性但增强能力减弱; \(t_s\)越小→美学增强更强但可能改变内容
去掉视觉模态(DIAE \(-w/ov\)): LAION降至5.250, CLIP-I降至0.623——视觉模态对美学理解至关重要
去掉文本模态(DIAE \(-w/ot\)): LAION降至5.428但CLIP-I升至0.792——视觉模态本身就能保持内容一致性，但缺失文本美学引导

亮点¶

"不完美配对"数据集的务实思路: 绕开了获取"完美配对"数据的高成本瓶颈，用语义匹配+弱监督替代
HSV图+轮廓图作为美学的视觉表示是一个巧妙的选择——将抽象美学概念具象化为可计算的视觉信号
双分支监督的时间步分割策略优雅地解决了内容保持和美学提升的矛盾

局限性 / 可改进方向¶

不支持人像/人群图像的美学增强（缺乏面部特征和身材的系统性美学研究）
基于SD1.5，未在更新的扩散模型(SDXL/SD3)上验证
美学评估标准仍具主观性，不同文化/个人会有不同偏好
IIAEData仅47.5K样本，扩大数据量可能进一步提升效果

与相关工作的对比¶

vs InstructPix2Pix: IP2P是通用图像编辑，无美学感知能力，CLIP-I 0.690 vs DIAE 0.784——IP2P更容易改变内容
vs DOODL: DOODL用MOS作为classifier guidance在推理时引导，但不改变模型本身的美学理解；DIAE通过MAP在训练阶段就注入了美学知识，LAION score 6.012 vs 5.140
vs MGIE: MGIE用MLLM理解编辑指令，CLIP-I在512时达0.770，但美学提升力度不如DIAE

启发与关联¶

"不完美配对"弱监督训练策略可以推广到其他缺乏完美配对数据的生成任务
将人类主观评估（美学）转化为可计算视觉信号（HSV+轮廓）的思路有普适性
与我的研究方向无直接关联

评分¶

新颖性: ⭐⭐⭐⭐ "不完美配对"数据集思路和MAP多模态美学感知是新贡献
实验充分度: ⭐⭐⭐ 有对比实验和消融，但仅在自建测试集上评估，缺乏标准benchmark
写作质量: ⭐⭐⭐ 结构清晰但部分描述冗长
价值: ⭐⭐⭐ 美学增强是小众但实用的方向，弱监督训练策略有参考价值