跳转至

OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution

会议: CVPR 2026
arXiv: 2603.12811
代码: 无(截至2026年3月)
领域: 图像超分辨率 / 强化学习对齐 / 图像质量评估
关键词: Real-World Super-Resolution, Online RL, MLLM Reward, Process-Aware, Perception-Fidelity Trade-off

一句话总结

提出了OARS框架,通过基于MLLM的过程感知奖励模型COMPASS和渐进式在线强化学习,将生成式真实世界超分辨率模型与人类视觉偏好对齐,在感知质量和保真度之间实现自适应平衡。

背景与动机

  • 真实世界图像超分辨率(Real-ISR)面临复杂未知退化,早期CNN方法(L1/L2损失)产生过度平滑纹理,扩散模型提升了感知质量但标准SFT在未见退化上泛化差,且缺乏与人类审美偏好对齐的直接优化机制
  • 现有IQA指标作为RL奖励存在根本缺陷:全参考(FR)指标在真实场景中无法获取GT,无参考(NR)指标缺乏区分生成式SR细微差异的细粒度敏感性;简单线性组合FR和NR指标忽略了输入退化程度的差异
  • 离线RL方法(如DPO)存在"伪多样性"问题:通过不同噪声种子采样的SR输出在强空间约束下退化为随机纹理幻觉而非真正的结构多样性,导致偏好对齐效果有限

核心问题

如何设计一个过程感知、质量自适应的奖励模型,以及一个能突破伪多样性瓶颈的在线探索策略,实现生成式Real-ISR模型与人类视觉偏好的有效对齐。

方法详解

整体框架

OARS包含两大核心组件:(1) COMPASS奖励模型——基于MLLM的过程感知评分器,评估LR→SR转换过程中的保真度保持和感知增益;(2) 渐进式在线RL框架——包含冷启动SFT、全参考RL、无参考RL三个阶段,通过在base模型上进行浅层LoRA优化实现on-policy探索。

关键设计

  1. COMPASS-20K数据集与三阶段标注流水线:
  2. 构建2400张输入图像(800张DIV2K合成LR + 1600张真实LQ),经12种SR算法处理产生28800个LR-SR对
  3. 保真度标注: 在合成子集上使用DISTS(SR, GT)距离归一化到[0,1]
  4. 感知质量增益标注(三阶段):
    • Stage 1 全局锚点评分:使用Q-Insight对LR和SR分别打分,获得全局可比的质量分数
    • Stage 2 组内排序:训练专用pairwise比较模型(基于DiffIQA数据集),对同一LR的所有SR输出做穷举对比,聚合为连续排序分数 r∈[0,1]
    • Stage 3 排序引导校准:对每组进行线性校准(最小二乘法估计α和β),使组内排序与全局尺度对齐
  5. 额外使用Qwen3-VL-32B生成解释性文本描述,并通过人工检查top/bottom 5%样本剔除冲突

  6. COMPASS奖励函数——输入质量自适应机制:

  7. 在QwenVL-8B上全参数SFT,联合预测保真度F、输入质量Q_LR、输出质量Q_SR
  8. 奖励公式:\(R = F \cdot Q_{LR} + F^{Q_{LR}/\gamma} \cdot \Delta Q\),其中 \(\Delta Q = Q_{SR} - Q_{LR}\),γ=7
  9. 第一项 \(F \cdot Q_{LR}\) 衡量原始质量保持;第二项通过指数 \(Q_{LR}/\gamma\) 实现自适应控制
  10. 高质量输入→指数大→对保真度下降极敏感→鼓励保守增强;低质量输入→指数小→放松保真度约束→允许更大感知提升

  11. 渐进式在线RL(三阶段):

  12. 冷启动阶段: 在LR-HR配对数据上用Flow Matching目标训练,学习基本SR能力
  13. 全参考RL阶段: 在有GT的数据上,使用DISTS直接计算一致性奖励(而非用奖励模型预测),避免reward hacking;关键trick是在base模型上做LoRA(而非SFT模型)——base模型采样随机性更高,有利于探索
  14. 无参考RL阶段: 在无GT的真实LQ数据上,完全由COMPASS提供奖励信号,继续在base模型上LoRA微调
  15. 推理时将最终LoRA参数ΔNR合并到冷启动SFT模型中

  16. 负感知目标函数与组过滤:

  17. 对每个LR采样K=24个候选,计算奖励后过滤掉高均值低方差的组(阈值0.9/0.05)
  18. 定义隐式正/负策略作为旧策略和当前策略的线性组合
  19. 损失函数同时从高奖励样本学习"应该做什么",从低奖励样本学习"不应该做什么"

损失函数 / 训练策略

  • 冷启动:Flow Matching损失 \(\mathcal{L}_{SFT} = \mathbb{E}[\|v - v_\theta(x_t, t | x_{LR}, c)\|^2]\)
  • RL阶段:负感知目标 \(\mathcal{L}_{RL} = \mathbb{E}[r\|v_\theta^+ - v\|^2 + (1-r)\|v_\theta^- - v\|^2]\),其中r为归一化裁剪后的最优概率
  • LoRA配置:rank=32, alpha=64; 训练6步采样,推理40步; 8×H20 GPU

实验关键数据

数据集 指标 OARS Qwen-SFT 最佳对比方法 提升(vs Qwen-SFT)
RealSR LIQE↑ 4.3045 3.8146 UARE: 4.0658 +0.49
RealSR MUSIQ↑ 71.41 68.57 UARE: 69.67 +2.84
DIV2K LIQE↑ 4.6668 4.3404 UARE: 4.2627 +0.33
DIV2K MUSIQ↑ 74.07 72.35 UARE: 70.45 +1.72
RealSet80 LIQE↑ 4.5465 4.1602 SeeSR: 4.3317 +0.39
SRIQA-Bench All-Acc 83.1% - A-FINE: 82.4% GT-Free最优
  • OARS在所有NR指标上一致最优,同时FR指标(PSNR/SSIM)相比Qwen-SFT无明显下降
  • 用户研究:OARS获得47.62%投票率,最高(DP2O-SR仅27.68%)

消融实验要点

  • 三阶段标注校准将准确率从78.8%提升至81.5%;加入显式保真度建模提升至82.3%;质量自适应γ=7达到最优83.1%
  • 在base模型上做RL(而非SFT模型)关键:SFT模型上RL导致FR指标严重下降(PSNR从22.71→21.31),base模型保持稳定(22.71→22.36)
  • 仅用感知增益ΔQ做奖励→严重reward hacking(PSNR降至21.38,产生虚假高NR分数的伪影)
  • 通用奖励(HPSv2、Qwen25-VL)无法为SR提供有效反馈,RALI虽有感知增益但保真度严重下降
  • OARS(NFT-based)比Flow-GRPO收敛效率高5-10倍,且在NR指标上更优

亮点

  • 过程感知评估范式转变: 不再将SR输出当作静态结果打分,而是评估LR→SR的转换过程,将Fidelity和Perceptual Gain解耦,这是评估框架的本质创新
  • 输入质量自适应奖励: 用指数门控机制 \(F^{Q_{LR}/\gamma}\) 根据输入退化程度动态调节感知-保真度权衡,设计优雅且有效
  • shallow LoRA on base model: 在base模型(而非SFT模型)上做浅层LoRA优化的洞察——利用base模型更高的随机性实现更好的on-policy探索,同时避免reward hacking
  • 三阶段标注流水线: 将全局可比性和组内细粒度区分力统一,解决了NR-IQA对生成式SR输出不敏感的关键问题

局限性 / 可改进方向

  • MLLM奖励模型计算开销大,在线RL训练效率受限——可蒸馏为轻量评分器
  • 仅处理图像SR,未扩展至视频SR(时序一致性是额外挑战)
  • 只在4×SR任务上验证,其他放大倍率和任务(去噪、去模糊)的泛化性未探索
  • COMPASS-20K中12种SR方法可能未覆盖所有生成范式的多样性

与相关工作的对比

  • vs DP2O-SR(离线DPO): OARS通过在线RL克服了离线采样的伪多样性问题,在DP2O-SR基础上应用OARS的非参考RL阶段仍能持续提升所有指标
  • vs Flow-GRPO: 两者都做在线RL对齐,但OARS采用前向过程RL(DiffusionNFT风格)而非轨迹级RL。SR作为强约束生成任务不需要轨迹级探索,OARS训练效率高5-10倍
  • vs Q-Insight/CLIP-IQA+等NR-IQA: 这些指标评估输出本身,无法感知LR→SR的增强过程;COMPASS通过过程感知+自适应机制在SRIQA-Bench上超越所有FR和NR基线

启发与关联

  • "过程感知"评估的思想可推广到其他图像增强/编辑任务:不仅看结果好不好,还要看相对于输入改进了什么、保持了什么
  • 浅层LoRA在base模型上做RL的策略值得在其他条件生成任务中验证
  • 三阶段标注流水线(全局+组内+校准)是一个通用的细粒度偏好标注方法

评分

  • 新颖性: ⭐⭐⭐⭐ 过程感知奖励和自适应门控是核心创新,渐进式RL框架设计完整,但各组件并非全新
  • 实验充分度: ⭐⭐⭐⭐⭐ 3个数据集、9种对比方法、多个消融(奖励公式/RL阶段/backbone/RL方法)、用户研究,极其充分
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,动机阐述到位,公式简洁,但整体内容密度很高需要反复阅读
  • 价值: ⭐⭐⭐⭐ 为生成式SR后训练提供了完整的RLHF流水线,COMPASS奖励可独立复用于其他低层视觉任务