OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution¶
会议: CVPR 2026
arXiv: 2603.12811
代码: 无(截至2026年3月)
领域: 图像超分辨率 / 强化学习对齐 / 图像质量评估
关键词: Real-World Super-Resolution, Online RL, MLLM Reward, Process-Aware, Perception-Fidelity Trade-off
一句话总结¶
提出了OARS框架,通过基于MLLM的过程感知奖励模型COMPASS和渐进式在线强化学习,将生成式真实世界超分辨率模型与人类视觉偏好对齐,在感知质量和保真度之间实现自适应平衡。
背景与动机¶
- 真实世界图像超分辨率(Real-ISR)面临复杂未知退化,早期CNN方法(L1/L2损失)产生过度平滑纹理,扩散模型提升了感知质量但标准SFT在未见退化上泛化差,且缺乏与人类审美偏好对齐的直接优化机制
- 现有IQA指标作为RL奖励存在根本缺陷:全参考(FR)指标在真实场景中无法获取GT,无参考(NR)指标缺乏区分生成式SR细微差异的细粒度敏感性;简单线性组合FR和NR指标忽略了输入退化程度的差异
- 离线RL方法(如DPO)存在"伪多样性"问题:通过不同噪声种子采样的SR输出在强空间约束下退化为随机纹理幻觉而非真正的结构多样性,导致偏好对齐效果有限
核心问题¶
如何设计一个过程感知、质量自适应的奖励模型,以及一个能突破伪多样性瓶颈的在线探索策略,实现生成式Real-ISR模型与人类视觉偏好的有效对齐。
方法详解¶
整体框架¶
OARS包含两大核心组件:(1) COMPASS奖励模型——基于MLLM的过程感知评分器,评估LR→SR转换过程中的保真度保持和感知增益;(2) 渐进式在线RL框架——包含冷启动SFT、全参考RL、无参考RL三个阶段,通过在base模型上进行浅层LoRA优化实现on-policy探索。
关键设计¶
- COMPASS-20K数据集与三阶段标注流水线:
- 构建2400张输入图像(800张DIV2K合成LR + 1600张真实LQ),经12种SR算法处理产生28800个LR-SR对
- 保真度标注: 在合成子集上使用DISTS(SR, GT)距离归一化到[0,1]
- 感知质量增益标注(三阶段):
- Stage 1 全局锚点评分:使用Q-Insight对LR和SR分别打分,获得全局可比的质量分数
- Stage 2 组内排序:训练专用pairwise比较模型(基于DiffIQA数据集),对同一LR的所有SR输出做穷举对比,聚合为连续排序分数 r∈[0,1]
- Stage 3 排序引导校准:对每组进行线性校准(最小二乘法估计α和β),使组内排序与全局尺度对齐
-
额外使用Qwen3-VL-32B生成解释性文本描述,并通过人工检查top/bottom 5%样本剔除冲突
-
COMPASS奖励函数——输入质量自适应机制:
- 在QwenVL-8B上全参数SFT,联合预测保真度F、输入质量Q_LR、输出质量Q_SR
- 奖励公式:\(R = F \cdot Q_{LR} + F^{Q_{LR}/\gamma} \cdot \Delta Q\),其中 \(\Delta Q = Q_{SR} - Q_{LR}\),γ=7
- 第一项 \(F \cdot Q_{LR}\) 衡量原始质量保持;第二项通过指数 \(Q_{LR}/\gamma\) 实现自适应控制
-
高质量输入→指数大→对保真度下降极敏感→鼓励保守增强;低质量输入→指数小→放松保真度约束→允许更大感知提升
-
渐进式在线RL(三阶段):
- 冷启动阶段: 在LR-HR配对数据上用Flow Matching目标训练,学习基本SR能力
- 全参考RL阶段: 在有GT的数据上,使用DISTS直接计算一致性奖励(而非用奖励模型预测),避免reward hacking;关键trick是在base模型上做LoRA(而非SFT模型)——base模型采样随机性更高,有利于探索
- 无参考RL阶段: 在无GT的真实LQ数据上,完全由COMPASS提供奖励信号,继续在base模型上LoRA微调
-
推理时将最终LoRA参数ΔNR合并到冷启动SFT模型中
-
负感知目标函数与组过滤:
- 对每个LR采样K=24个候选,计算奖励后过滤掉高均值低方差的组(阈值0.9/0.05)
- 定义隐式正/负策略作为旧策略和当前策略的线性组合
- 损失函数同时从高奖励样本学习"应该做什么",从低奖励样本学习"不应该做什么"
损失函数 / 训练策略¶
- 冷启动:Flow Matching损失 \(\mathcal{L}_{SFT} = \mathbb{E}[\|v - v_\theta(x_t, t | x_{LR}, c)\|^2]\)
- RL阶段:负感知目标 \(\mathcal{L}_{RL} = \mathbb{E}[r\|v_\theta^+ - v\|^2 + (1-r)\|v_\theta^- - v\|^2]\),其中r为归一化裁剪后的最优概率
- LoRA配置:rank=32, alpha=64; 训练6步采样,推理40步; 8×H20 GPU
实验关键数据¶
| 数据集 | 指标 | OARS | Qwen-SFT | 最佳对比方法 | 提升(vs Qwen-SFT) |
|---|---|---|---|---|---|
| RealSR | LIQE↑ | 4.3045 | 3.8146 | UARE: 4.0658 | +0.49 |
| RealSR | MUSIQ↑ | 71.41 | 68.57 | UARE: 69.67 | +2.84 |
| DIV2K | LIQE↑ | 4.6668 | 4.3404 | UARE: 4.2627 | +0.33 |
| DIV2K | MUSIQ↑ | 74.07 | 72.35 | UARE: 70.45 | +1.72 |
| RealSet80 | LIQE↑ | 4.5465 | 4.1602 | SeeSR: 4.3317 | +0.39 |
| SRIQA-Bench | All-Acc | 83.1% | - | A-FINE: 82.4% | GT-Free最优 |
- OARS在所有NR指标上一致最优,同时FR指标(PSNR/SSIM)相比Qwen-SFT无明显下降
- 用户研究:OARS获得47.62%投票率,最高(DP2O-SR仅27.68%)
消融实验要点¶
- 三阶段标注校准将准确率从78.8%提升至81.5%;加入显式保真度建模提升至82.3%;质量自适应γ=7达到最优83.1%
- 在base模型上做RL(而非SFT模型)关键:SFT模型上RL导致FR指标严重下降(PSNR从22.71→21.31),base模型保持稳定(22.71→22.36)
- 仅用感知增益ΔQ做奖励→严重reward hacking(PSNR降至21.38,产生虚假高NR分数的伪影)
- 通用奖励(HPSv2、Qwen25-VL)无法为SR提供有效反馈,RALI虽有感知增益但保真度严重下降
- OARS(NFT-based)比Flow-GRPO收敛效率高5-10倍,且在NR指标上更优
亮点¶
- 过程感知评估范式转变: 不再将SR输出当作静态结果打分,而是评估LR→SR的转换过程,将Fidelity和Perceptual Gain解耦,这是评估框架的本质创新
- 输入质量自适应奖励: 用指数门控机制 \(F^{Q_{LR}/\gamma}\) 根据输入退化程度动态调节感知-保真度权衡,设计优雅且有效
- shallow LoRA on base model: 在base模型(而非SFT模型)上做浅层LoRA优化的洞察——利用base模型更高的随机性实现更好的on-policy探索,同时避免reward hacking
- 三阶段标注流水线: 将全局可比性和组内细粒度区分力统一,解决了NR-IQA对生成式SR输出不敏感的关键问题
局限性 / 可改进方向¶
- MLLM奖励模型计算开销大,在线RL训练效率受限——可蒸馏为轻量评分器
- 仅处理图像SR,未扩展至视频SR(时序一致性是额外挑战)
- 只在4×SR任务上验证,其他放大倍率和任务(去噪、去模糊)的泛化性未探索
- COMPASS-20K中12种SR方法可能未覆盖所有生成范式的多样性
与相关工作的对比¶
- vs DP2O-SR(离线DPO): OARS通过在线RL克服了离线采样的伪多样性问题,在DP2O-SR基础上应用OARS的非参考RL阶段仍能持续提升所有指标
- vs Flow-GRPO: 两者都做在线RL对齐,但OARS采用前向过程RL(DiffusionNFT风格)而非轨迹级RL。SR作为强约束生成任务不需要轨迹级探索,OARS训练效率高5-10倍
- vs Q-Insight/CLIP-IQA+等NR-IQA: 这些指标评估输出本身,无法感知LR→SR的增强过程;COMPASS通过过程感知+自适应机制在SRIQA-Bench上超越所有FR和NR基线
启发与关联¶
- "过程感知"评估的思想可推广到其他图像增强/编辑任务:不仅看结果好不好,还要看相对于输入改进了什么、保持了什么
- 浅层LoRA在base模型上做RL的策略值得在其他条件生成任务中验证
- 三阶段标注流水线(全局+组内+校准)是一个通用的细粒度偏好标注方法
评分¶
- 新颖性: ⭐⭐⭐⭐ 过程感知奖励和自适应门控是核心创新,渐进式RL框架设计完整,但各组件并非全新
- 实验充分度: ⭐⭐⭐⭐⭐ 3个数据集、9种对比方法、多个消融(奖励公式/RL阶段/backbone/RL方法)、用户研究,极其充分
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,动机阐述到位,公式简洁,但整体内容密度很高需要反复阅读
- 价值: ⭐⭐⭐⭐ 为生成式SR后训练提供了完整的RLHF流水线,COMPASS奖励可独立复用于其他低层视觉任务