OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution¶

会议: CVPR 2026
arXiv: 2603.12811
代码: 无（截至2026年3月）
领域: 图像超分辨率 / 强化学习对齐 / 图像质量评估
关键词: Real-World Super-Resolution, Online RL, MLLM Reward, Process-Aware, Perception-Fidelity Trade-off

一句话总结¶

提出了OARS框架，通过基于MLLM的过程感知奖励模型COMPASS和渐进式在线强化学习，将生成式真实世界超分辨率模型与人类视觉偏好对齐，在感知质量和保真度之间实现自适应平衡。

背景与动机¶

真实世界图像超分辨率(Real-ISR)面临复杂未知退化，早期CNN方法（L1/L2损失）产生过度平滑纹理，扩散模型提升了感知质量但标准SFT在未见退化上泛化差，且缺乏与人类审美偏好对齐的直接优化机制
现有IQA指标作为RL奖励存在根本缺陷：全参考(FR)指标在真实场景中无法获取GT，无参考(NR)指标缺乏区分生成式SR细微差异的细粒度敏感性；简单线性组合FR和NR指标忽略了输入退化程度的差异
离线RL方法（如DPO）存在"伪多样性"问题：通过不同噪声种子采样的SR输出在强空间约束下退化为随机纹理幻觉而非真正的结构多样性，导致偏好对齐效果有限

核心问题¶

如何设计一个过程感知、质量自适应的奖励模型，以及一个能突破伪多样性瓶颈的在线探索策略，实现生成式Real-ISR模型与人类视觉偏好的有效对齐。

方法详解¶

整体框架¶

OARS包含两大核心组件：(1) COMPASS奖励模型——基于MLLM的过程感知评分器，评估LR→SR转换过程中的保真度保持和感知增益；(2) 渐进式在线RL框架——包含冷启动SFT、全参考RL、无参考RL三个阶段，通过在base模型上进行浅层LoRA优化实现on-policy探索。

关键设计¶

COMPASS-20K数据集与三阶段标注流水线:
构建2400张输入图像(800张DIV2K合成LR + 1600张真实LQ)，经12种SR算法处理产生28800个LR-SR对
保真度标注: 在合成子集上使用DISTS(SR, GT)距离归一化到[0,1]
感知质量增益标注（三阶段）:
- Stage 1 全局锚点评分：使用Q-Insight对LR和SR分别打分，获得全局可比的质量分数
- Stage 2 组内排序：训练专用pairwise比较模型（基于DiffIQA数据集），对同一LR的所有SR输出做穷举对比，聚合为连续排序分数 r∈[0,1]
- Stage 3 排序引导校准：对每组进行线性校准（最小二乘法估计α和β），使组内排序与全局尺度对齐
额外使用Qwen3-VL-32B生成解释性文本描述，并通过人工检查top/bottom 5%样本剔除冲突
COMPASS奖励函数——输入质量自适应机制:
在QwenVL-8B上全参数SFT，联合预测保真度F、输入质量Q_LR、输出质量Q_SR
奖励公式：\(R = F \cdot Q_{LR} + F^{Q_{LR}/\gamma} \cdot \Delta Q\)，其中 \(\Delta Q = Q_{SR} - Q_{LR}\)，γ=7
第一项 \(F \cdot Q_{LR}\) 衡量原始质量保持；第二项通过指数 \(Q_{LR}/\gamma\) 实现自适应控制
高质量输入→指数大→对保真度下降极敏感→鼓励保守增强；低质量输入→指数小→放松保真度约束→允许更大感知提升
渐进式在线RL（三阶段）:
冷启动阶段: 在LR-HR配对数据上用Flow Matching目标训练，学习基本SR能力
全参考RL阶段: 在有GT的数据上，使用DISTS直接计算一致性奖励（而非用奖励模型预测），避免reward hacking；关键trick是在base模型上做LoRA（而非SFT模型）——base模型采样随机性更高，有利于探索
无参考RL阶段: 在无GT的真实LQ数据上，完全由COMPASS提供奖励信号，继续在base模型上LoRA微调
推理时将最终LoRA参数ΔNR合并到冷启动SFT模型中
负感知目标函数与组过滤:
对每个LR采样K=24个候选，计算奖励后过滤掉高均值低方差的组（阈值0.9/0.05）
定义隐式正/负策略作为旧策略和当前策略的线性组合
损失函数同时从高奖励样本学习"应该做什么"，从低奖励样本学习"不应该做什么"

损失函数 / 训练策略¶

冷启动：Flow Matching损失 \(\mathcal{L}_{SFT} = \mathbb{E}[\|v - v_\theta(x_t, t | x_{LR}, c)\|^2]\)
RL阶段：负感知目标 \(\mathcal{L}_{RL} = \mathbb{E}[r\|v_\theta^+ - v\|^2 + (1-r)\|v_\theta^- - v\|^2]\)，其中r为归一化裁剪后的最优概率
LoRA配置：rank=32, alpha=64; 训练6步采样，推理40步; 8×H20 GPU

实验关键数据¶

数据集	指标	OARS	Qwen-SFT	最佳对比方法	提升(vs Qwen-SFT)
RealSR	LIQE↑	4.3045	3.8146	UARE: 4.0658	+0.49
RealSR	MUSIQ↑	71.41	68.57	UARE: 69.67	+2.84
DIV2K	LIQE↑	4.6668	4.3404	UARE: 4.2627	+0.33
DIV2K	MUSIQ↑	74.07	72.35	UARE: 70.45	+1.72
RealSet80	LIQE↑	4.5465	4.1602	SeeSR: 4.3317	+0.39
SRIQA-Bench	All-Acc	83.1%	-	A-FINE: 82.4%	GT-Free最优

OARS在所有NR指标上一致最优，同时FR指标（PSNR/SSIM）相比Qwen-SFT无明显下降
用户研究：OARS获得47.62%投票率，最高（DP2O-SR仅27.68%）

消融实验要点¶

三阶段标注校准将准确率从78.8%提升至81.5%；加入显式保真度建模提升至82.3%；质量自适应γ=7达到最优83.1%
在base模型上做RL（而非SFT模型）关键：SFT模型上RL导致FR指标严重下降（PSNR从22.71→21.31），base模型保持稳定（22.71→22.36）
仅用感知增益ΔQ做奖励→严重reward hacking（PSNR降至21.38，产生虚假高NR分数的伪影）
通用奖励（HPSv2、Qwen25-VL）无法为SR提供有效反馈，RALI虽有感知增益但保真度严重下降
OARS(NFT-based)比Flow-GRPO收敛效率高5-10倍，且在NR指标上更优

亮点¶

过程感知评估范式转变: 不再将SR输出当作静态结果打分，而是评估LR→SR的转换过程，将Fidelity和Perceptual Gain解耦，这是评估框架的本质创新
输入质量自适应奖励: 用指数门控机制 \(F^{Q_{LR}/\gamma}\) 根据输入退化程度动态调节感知-保真度权衡，设计优雅且有效
shallow LoRA on base model: 在base模型（而非SFT模型）上做浅层LoRA优化的洞察——利用base模型更高的随机性实现更好的on-policy探索，同时避免reward hacking
三阶段标注流水线: 将全局可比性和组内细粒度区分力统一，解决了NR-IQA对生成式SR输出不敏感的关键问题

局限性 / 可改进方向¶

MLLM奖励模型计算开销大，在线RL训练效率受限——可蒸馏为轻量评分器
仅处理图像SR，未扩展至视频SR（时序一致性是额外挑战）
只在4×SR任务上验证，其他放大倍率和任务（去噪、去模糊）的泛化性未探索
COMPASS-20K中12种SR方法可能未覆盖所有生成范式的多样性

与相关工作的对比¶

vs DP2O-SR（离线DPO）: OARS通过在线RL克服了离线采样的伪多样性问题，在DP2O-SR基础上应用OARS的非参考RL阶段仍能持续提升所有指标
vs Flow-GRPO: 两者都做在线RL对齐，但OARS采用前向过程RL（DiffusionNFT风格）而非轨迹级RL。SR作为强约束生成任务不需要轨迹级探索，OARS训练效率高5-10倍
vs Q-Insight/CLIP-IQA+等NR-IQA: 这些指标评估输出本身，无法感知LR→SR的增强过程；COMPASS通过过程感知+自适应机制在SRIQA-Bench上超越所有FR和NR基线

启发与关联¶

"过程感知"评估的思想可推广到其他图像增强/编辑任务：不仅看结果好不好，还要看相对于输入改进了什么、保持了什么
浅层LoRA在base模型上做RL的策略值得在其他条件生成任务中验证
三阶段标注流水线（全局+组内+校准）是一个通用的细粒度偏好标注方法

评分¶

新颖性: ⭐⭐⭐⭐ 过程感知奖励和自适应门控是核心创新，渐进式RL框架设计完整，但各组件并非全新
实验充分度: ⭐⭐⭐⭐⭐ 3个数据集、9种对比方法、多个消融(奖励公式/RL阶段/backbone/RL方法)、用户研究，极其充分
写作质量: ⭐⭐⭐⭐ 逻辑清晰，动机阐述到位，公式简洁，但整体内容密度很高需要反复阅读
价值: ⭐⭐⭐⭐ 为生成式SR后训练提供了完整的RLHF流水线，COMPASS奖励可独立复用于其他低层视觉任务