ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration¶

会议: AAAI 2026
arXiv: 2601.02763
代码: 未开源
领域: image_restoration
关键词: All-in-One Image Restoration, Human Visual Perception, MLLM-based IQA, Semantic Guidance, Self-supervised Learning

一句话总结¶

受人类视觉感知（HVP）启发，提出一种从粗到细的统一图像复原框架 ClearAIR，通过 MLLM 质量评估 → 语义区域感知 → 退化类型识别 → 内部线索复用四阶段逐步恢复图像质量，在多种退化任务上取得 SOTA。

研究背景与动机¶

任务特定模型泛化性差：早期图像复原方法针对去噪、去雾、去雨等单一退化设计专用网络，无法跨任务泛化，部署成本高。
通用模型仍需多实例：NAFNet、Restormer 等通用复原模型虽可处理多种退化，但每种退化仍需独立模型，推理流程复杂。
现有 AiOIR 忽略空间非均匀退化：AirNet、PromptIR 等 All-in-One 方法对整幅图像施加统一处理策略，未考虑不同区域退化分布和严重程度的差异。
纹理复杂度影响复原难度：即使退化均匀分布，平坦区域与复杂纹理区域的复原难度也显著不同，统一策略导致过平滑或伪影。
缺乏层次化感知机制：人类视觉先整体后局部，而现有方法缺乏从全局结构到局部细节的渐进感知流程。
细节恢复能力不足：现有方法在精细纹理恢复上仍有欠缺，缺乏对图像内在结构信息的挖掘。

方法详解¶

整体框架¶

ClearAIR 模仿人类视觉感知的层次化处理流程，包含四个核心组件：

MLLM-based IQA（全局质量评估）→ 2. SGU（区域语义感知）→ 3. Task Identifier（退化类型识别）→ 4. ICRM（内部线索复用）

复原骨干采用 Restormer，四个层级的 Prompt Transformer Block 数分别为 [3, 5, 6, 8]，通道维度为 [48, 96, 192, 384]。

关键设计一：MLLM-based Overall Assessment¶

利用 DeQA（基于 MLLM 的图像质量评估模型）作为全局质量感知器
视觉编码器将退化图像编码为 visual tokens，经 vision abstractor 压缩后与文本 tokens 融合送入 MLLM
提取 "quality level" token 前一层的隐状态 \(\mathcal{Q}\) 作为质量表征
通过 Quality Guidance Module (QGM) 以 affine transformation 形式注入复原骨干：\(\mathbf{X}_{out} = \mathbf{X}_{in} \odot \text{Linear}(\mathbf{F}_q) + \text{Linear}(\mathbf{F}_q)\)

关键设计二：Semantic Guidance Unit (SGU) + Task Identifier¶

区域感知 (SGU)： - 利用预训练 SAM2 对退化图像生成 \(N_m\) 个二值语义 mask - 通过 Mask Average Pooling (MAP) 计算每个 mask 区域内特征的均值并广播回对应位置，得到语义先验 \(\mathbf{F}_{sem}\) - 训练时引入 mask dropout 策略，随机移除部分 mask 并合并至背景，增强鲁棒性 - 语义特征通过 Semantic Cross-Attention (SCA) 与骨干交互

退化识别 (Task Identifier)： - 使用 DA-CLIP 生成内容嵌入 \(\mathbf{F}_c \in \mathbb{R}^{1 \times 512}\) 和退化嵌入 \(\mathbf{F}_d \in \mathbb{R}^{1 \times 512}\) - 退化嵌入经 MLP + Softmax 与可学习 prompt 集 \(\mathcal{P}\) 加权得到 degradation prompt \(\mathbf{F}_p\) - Degradation-Aware Module (DAM) 利用 \(\mathbf{F}_c\) 做 cross-attention 进行内容感知增强，同时由 \(\mathbf{F}_p\) 生成退化 mask 对特征做空间调制

关键设计三：Internal Clue Reuse Mechanism (ICRM)¶

对复原结果 \(\mathbf{I}_r\) 依次施加弱增强和强增强
计算弱增强与强增强输出之间的 L2 距离作为内部一致性损失：\(\mathcal{L}_{inter} = \gamma \cdot \|\mathbf{I}_r^w - \mathbf{I}_r^s\|_2^2\)
以自监督方式挖掘图像内在结构信息，增强细节恢复能力
该机制不需要额外标注，利用图像自身的内部统计信息

损失函数与训练¶

总损失：\(\mathcal{L}_{total} = \mathcal{L}_1 + \alpha \cdot \mathcal{L}_{inter}\)，其中 \(\alpha = 0.25\)，\(\gamma = 0.05\)
优化器：AdamW (\(\beta_1=0.9\), \(\beta_2=0.999\))，学习率 \(2 \times 10^{-4}\)，batch size 4
训练 300K 迭代，输入随机裁剪到 256×256，随机水平/垂直翻转
硬件：NVIDIA RTX 4090

实验关键数据¶

Three Degradations（去噪 + 去雾 + 去雨）¶

方法	参数量	SOTS (PSNR/SSIM)	Rain100L	BSD68 σ=15	BSD68 σ=25	BSD68 σ=50	平均
PromptIR	36M	30.58/.974	36.37/.972	33.98/.933	31.31/.888	28.06/.799	32.06/.913
AdaIR	29M	31.06/.980	38.64/.983	34.12/.934	31.45/.892	28.19/.802	32.69/.918
VLU-Net	35M	30.71/.980	38.93/.984	34.13/.935	31.48/.892	28.23/.804	32.70/.919
ClearAIR	31M	31.08/.981	38.61/.984	34.18/.935	31.50/.891	28.31/.804	32.74/.919

Five Degradations（+去模糊 + 低光增强）¶

方法	SOTS	Rain100L	BSD68 σ=25	GoPro	LOLv1	平均
Perceive-IR	28.19/.964	37.25/.977	31.44/.887	29.46/.886	22.81/.833	29.84/.909
AdaIR	30.53/.978	38.02/.981	31.35/.888	28.12/.858	23.00/.845	30.20/.910
ClearAIR	30.12/.978	38.20/.982	31.53/.888	29.67/.887	22.83/.846	30.45/.916

All-Weather（雪 + 雨雾 + 雨滴）¶

方法	Snow100K-S	Snow100K-L	Outdoor-Rain	RainDrop	平均
Histoformer	37.41/.966	32.16/.926	32.08/.939	33.06/.944	33.68/.945
ClearAIR	37.79/.967	32.53/.932	32.45/.941	32.82/.942	33.90/.946

Composited Degradations (CDD-11)¶

ClearAIR 达到 29.34 dB / 0.886 SSIM，比 OneRestore (28.72 dB) 提升 0.62 dB。

消融实验¶

感知顺序："How-Where-What"（本文）最优 38.21 dB，优于 "What-How-Where" (38.04) 和 "Where-What-How" (37.89)
各组件贡献：去除 IQA/SGU/TI/ICRM 中任意一个均导致性能下降，四者协同达到最佳 38.21/0.986

亮点¶

HVP 启发的渐进式设计理念新颖：将人类"先整体后局部"的视觉感知规律引入 AiOIR，四阶段流程逻辑清晰
多模态大模型驱动质量评估：首次将 MLLM-based IQA 引入图像复原作为全局先验，跨模态理解增强退化表征
区域级自适应处理：SGU + Task Identifier 实现空间非均匀退化的差异化处理，解决统一策略的根本缺陷
ICRM 自监督细节恢复无需额外标注：巧妙利用图像内在统计信息，以增强一致性约束提升纹理恢复
四个 AiOIR 设定下全面 SOTA：31M 参数量适中，性能全面超越 AdaIR、VLU-Net 等最新方法

局限性¶

推理效率存疑：引入 MLLM-IQA (DeQA)、SAM2、DA-CLIP 三个大型预训练模型，推理开销和延迟可能较高，论文未报告推理速度
预训练模型依赖重：框架强依赖 DeQA、SAM2、DA-CLIP 的质量，这些模型在严重退化下的表现未充分讨论
ICRM 增益有限：消融实验中去除 ICRM 仅损失 0.18 dB (38.03→38.21)，设计复杂度与收益不完全匹配
低光增强任务表现一般：五退化设定中 LOLv1 上 22.83 dB 不及 AdaIR 的 23.00 dB，说明全局质量引导对低光场景帮助有限
缺少真实世界大规模评测：主要在合成数据集上验证，真实退化场景的泛化能力有待进一步验证

评分¶

新颖性: ⭐⭐⭐⭐ — HVP 启发的四阶段框架设计思路新颖，MLLM-IQA 引入复原任务有创新
实验充分度: ⭐⭐⭐⭐ — 四种 AiOIR 设定 + 消融实验 + 定性比较，覆盖面广
写作质量: ⭐⭐⭐⭐ — 层次清晰，HVP 类比贯穿全文，公式表达规范
价值: ⭐⭐⭐⭐ — 在 AiOIR 领域推动了区域级自适应感知的研究方向