RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images¶

会议: ECCV 2024
arXiv: 2408.14802
代码: 有
领域: 信号通信
关键词: RAW 图像, 图像信号处理器, 适配器, 目标检测, 语义分割

一句话总结¶

提出 RAW-Adapter，通过输入级适配器（可学习 ISP 阶段）和模型级适配器（ISP 中间特征注入骨干网络），以极小参数量（0.2-0.8M）将 sRGB 预训练模型高效适配到 Camera RAW 图像，在正常光/暗光/过曝等多种光照条件下的检测和分割任务上达到 SOTA。

研究背景与动机¶

当前计算机视觉模型主要在 sRGB 图像上预训练，但 RAW 图像具有独特优势：未经 ISP 压缩，保留了丰富的物理信息（如噪声分布），与辐射能量呈线性关系，拥有更高的动态范围。在真实世界的极端光照条件下（日照强度从 \(1.3 \times 10^3 W/m^2\) 到 \(2.0 \times 10^{-6} W/m^2\)），RAW 图像的优势尤为明显。

然而，现有将 RAW 用于视觉任务的方法存在三个核心问题：

ISP 目标不匹配：传统 ISP 旨在生成"视觉上令人愉悦"的图像，而非优化下游视觉任务。手动设计的 ISP 有时甚至不如直接使用 RAW 数据效果好。

联合训练方法的局限：现有方案要么用进化策略优化传统 ISP 参数（如 Hardware-in-the-loop），要么用神经网络替代 ISP（如 Dirty-Pixel 用残差 UNet），但前者不可微分，后者引入大量计算负担（Dirty-Pixel 增加 4.28M 参数）。

缺乏交互：上述方法将 ISP 和后端网络视为两个独立模块，缺少 ISP 阶段与下游网络之间的信息交互。同时，从头在 RAW 数据上训练会放弃 sRGB 大规模预训练模型的知识（Fig.2 显示使用预训练权重可显著提升性能）。

核心问题：如何高效地将信息丰富的 RAW 图像适配到知识丰富的 sRGB 预训练模型中？

方法详解¶

整体框架¶

RAW-Adapter 包含两层适配器：输入级适配器（Input-level Adapters）将 RAW 图像 \(\mathbf{I}_1\) 转换为机器视觉友好的图像 \(\mathbf{I}_5\)；模型级适配器（Model-level Adapters）将 ISP 各阶段的中间特征注入骨干网络的不同 stage，增强两者之间的信息交互。整体框架保持 ISP 的模块化设计，但通过 Query Adaptive Learning (QAL) 使所有关键参数可学习、可微分。

关键设计¶

Query Adaptive Learning (QAL)：用于自适应预测 ISP 各阶段的关键参数。设计灵感来自 Transformer 的注意力机制：输入图像经两层下采样卷积提取特征，生成 key \(\mathbbm{k}\) 和 value \(\mathbbm{v}\)，而 query \(\mathbbm{q}\) 是一组可学习的动态参数，通过自注意力计算预测 ISP 参数：

\[parameters = FFN\left(softmax\left(\frac{\mathbbm{q} \cdot \mathbbm{k}^T}{\sqrt{d_k}}\right) \cdot \mathbbm{v}\right)\]

这使得每张图像可根据自身内容自适应预测不同的 ISP 参数。定义了两个 QAL 块 \(\mathbb{P_K}\)（预测增益/去噪参数）和 \(\mathbb{P_M}\)（预测白平衡/CCM 参数）。

输入级适配器的 ISP 阶段：保留传统 ISP 的模块化设计，但每个阶段的关键参数由 QAL 自适应预测：
- Gain & Denoise：\(\mathbb{P_K}\) 预测增益比 \(g\)（适应不同光照）和各向异性高斯核参数 \(\{r_1, r_2\}\)（自适应去噪），以及锐化参数 \(\sigma\)： \(\mathbf{I}_2' = (g \cdot \mathbf{I}_1) \circledast k, \quad \mathbf{I}_2 = \mathbf{I}_2' + (g \cdot \mathbf{I}_1 - \mathbf{I}_2') \cdot \sigma\)
- White Balance & CCM：\(\mathbb{P_M}\) 预测 Minkowski 距离参数 \(\rho\)（统一 gray-world 和 Max-RGB 白平衡）和 \(3\times3\) 颜色转换矩阵 \(\mathbf{E}_{ccm}\)
- Color Manipulation：使用 NILUT（Neural Implicit 3D LUT）进行端到端可学习的颜色映射
模型级适配器：ISP 中间阶段 \(\mathbf{I}_1 \sim \mathbf{I}_4\) 含有丰富的先验信息，但此前方法完全忽略了这些信息。模型级适配器通过卷积层提取各 ISP 阶段特征并拼接：\(\mathbb{C}(\mathbf{I}_{1\sim4}) = \mathbb{C}(c_1(\mathbf{I}_1), c_2(\mathbf{I}_2), c_3(\mathbf{I}_3), c_4(\mathbf{I}_4))\)，经残差块处理后通过 merge block（拼接 + 残差连接）逐级注入骨干网络的 stage 1-3。这使得下游任务网络能够利用 ISP 各阶段的先验知识。

损失函数 / 训练策略¶

无需额外的人类视觉导向损失函数——仅使用下游任务本身的损失（检测用 focal loss / segmentation 用交叉熵等），ISP 参数通过任务损失端到端优化
所有比较方法使用相同的数据增强和训练设置
参数量极小：输入级适配器 \(\mathbb{P_K}\) (37.57K) + \(\mathbb{P_M}\) (37.96K) + \(\mathbb{L}\) (1.97K)，模型级适配器 \(\mathbb{M}\) (114.87K ~ 687.59K)，总计 0.2M ~ 0.8M，远小于 SID (11.99M) 和 Dirty-Pixel (4.28M)

实验关键数据¶

主实验¶

PASCAL RAW 目标检测（RetinaNet, mAP）：

方法	ResNet-18 正常光	ResNet-18 暗光	ResNet-50 正常光	ResNet-50 暗光
Default ISP	88.3	-	89.6	-
Demosaicing	87.7	80.3	89.2	82.6
Dirty-Pixel	88.6	80.8	89.7	83.6
RAW-Adapter	88.7	82.5	89.7	86.6

LOD 暗光检测（ResNet-50, mAP）：

方法	RetinaNet	Sparse-RCNN
Demosaicing	58.5	57.7
Dirty-Pixel	61.6	58.8
RAW-Adapter	62.1	59.2

ADE20K RAW 语义分割（Segformer, mIoU）：

方法	Backbone	Params(M)	正常光	过曝	暗光
Demosaicing	MIT-B5	82.01	47.47	45.69	37.55
Dirty-Pixel	MIT-B5	86.29	47.86	46.50	38.02
RAW-Adapter	MIT-B5	82.31	47.95	46.62	38.75
RAW-Adapter	MIT-B3	45.16	46.57	44.19	37.62

消融实验¶

模型级适配器的效果（LOD 数据集, mAP）：

配置	RetinaNet	Sparse-RCNN	说明
RAW-Adapter (w/o \(\mathbb{M}\))	61.6	58.6	仅输入级适配器
RAW-Adapter (完整)	62.1	59.2	加上模型级适配器

ADE20K RAW 消融（MIT-B5, mIoU）：

配置	正常光	过曝	暗光	说明
w/o \(\mathbb{M}\)	47.83	46.48	38.41	仅输入级适配器
完整	47.95	46.62	38.75	完整 RAW-Adapter

关键发现¶

暗光条件提升最显著：PASCAL RAW (dark) 上 ResNet-50 从 Dirty-Pixel 的 83.6 提升至 86.6（+3.0），说明 RAW 的高动态范围优势在极端光照下更为突出
小 backbone 超越大 backbone：RAW-Adapter + ResNet-18 的暗光检测 (82.5) 超过部分 ISP 方法 + ResNet-50 的性能
MIT-B3 + RAW-Adapter 的暗光分割 (37.62) 超过 Dirty-Pixel + MIT-B5 (38.02) 接近的性能，参数量不到一半
传统 ISP 有时反而降低下游任务性能，尤其在非正常光照条件下
无需人类视觉损失约束，RAW-Adapter 仍然生成了视觉上令人满意的中间图像

亮点与洞察¶

设计哲学精准：不追求复杂的输入处理，而是"简化输入阶段 + 增强 ISP 与网络的连接"
参数效率极高：仅 0.2-0.8M 额外参数，远小于现有方案，且推理速度更快
通用性强：框架可适配各种检测器（RetinaNet、Sparse-RCNN）和分割器（Segformer），以及不同大小的 backbone
将 NLP/CV 领域的 adapter 思想巧妙应用于 RAW-sRGB 域适配问题

局限与展望¶

不同光照条件（正常/暗/过曝）需要分别训练，无法用统一模型处理多种光照
仅在 CNN 骨干（ResNet、MIT）上验证，ViT 等 Transformer 架构的适配效果未探索
ISP 阶段的选择和简化是手工设计的，更自动化的 ISP 阶段筛选可能进一步提升效果
合成暗光/过曝数据的噪声模型较为简单，在真实极端光照下的鲁棒性有待验证

评分¶

新颖性: ⭐⭐⭐⭐ — 将 adapter 范式应用于 RAW-sRGB 域适配是新颖切入点，输入级+模型级双层设计有原创性
实验充分度: ⭐⭐⭐⭐ — 涵盖检测+分割、多种光照、多个 backbone，但消融实验可以更详细
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，公式规范
价值: ⭐⭐⭐⭐ — 对 RAW 图像的实际应用有重要推动作用，参数高效的设计具有工程价值