Enhancing Spatial Understanding in Image Generation via Reward Modeling¶

会议: CVPR 2026 arXiv: 2602.24233 代码: 无领域: 文本到图像生成 / 强化学习 关键词: 空间理解, 奖励模型, GRPO, 扩散模型, FLUX

一句话总结¶

构建 80K 对抗性偏好数据集 SpatialReward-Dataset，训练专门评估空间关系准确性的奖励模型 SpatialScore（准确率超越 GPT-5），并用 top-k 过滤策略结合 GRPO 在线 RL 显著提升 FLUX.1-dev 的空间生成能力。

研究背景与动机¶

尽管文本到图像生成在视觉质量上取得巨大进展，复杂空间关系的准确描绘仍然困难，尤其是涉及多物体空间关系的长提示场景。通过强化学习（RL）增强空间理解是自然方向，但核心瓶颈在于缺乏可靠的奖励模型：

人类偏好奖励模型（HPSv2, PickScore 等）：侧重整体美学和文图对齐，无法准确评估复杂空间关系
VQA 对齐模型（VQAScore 等）：同样在多物体空间推理上表现不佳
大型专有 VLM（GPT-5, Gemini）：成本高，不适合 RL 频繁查询
开源 VLM（Qwen2.5-VL 72B）：存在严重幻觉，空间推理不可靠
基于规则的 GenEval：仅覆盖简单双物体模板提示，无法泛化到长提示场景，且目标检测器对遮挡敏感

方法详解¶

整体框架¶

三阶段流水线：(1) 构建 SpatialReward-Dataset 偏好对数据集 → (2) 训练 SpatialScore 奖励模型 → (3) 以 SpatialScore 为奖励信号，通过 GRPO 在线 RL 优化 FLUX.1-dev。

关键设计¶

SpatialReward-Dataset（80K 对抗性偏好对）：
使用 GPT-5 生成包含复杂多物体空间关系的初始提示
GPT-5 对原始提示进行空间关系扰动（如左→右、交换相对位置），保持其余关系不变
原始提示生成 "perfect image"，扰动提示生成 "perturbed image"
使用 Qwen-Image、HunyuanImage-2.1、Seedream-4.0 等强文图对齐模型生成
人工审核过滤不满足空间约束的样本，确保高数据质量
SpatialScore 奖励模型：
骨干：Qwen2.5-VL-7B + LoRA 微调
用高斯分布 $s \sim \mathcal{N}(\mu, \sigma^2)$ 建模奖励分数（而非确定性数值），更鲁棒
在提示末尾插入 <reward> 特殊 token，最后一层嵌入通过 MLP 映射到 $\mu, \sigma$
Bradley-Terry 模型优化偏好损失：

$$\mathcal{L}_{\text{Reward}}(\theta) = \mathbb{E}_{c, y_w, y_l}[-\log \sigma(R_\phi(H_\phi(y_w, c)) - R_\phi(H_\phi(y_l, c)))]$$

Top-k 过滤 GRPO：解决不同难度提示导致的优势偏差问题：
简单提示产生大量高奖励样本 → 部分高质量样本获得负优势
困难提示普遍低奖励 → 同样导致优势偏差
对每组 $G$ 个样本按奖励排序，仅选取 top-$k$ 和 bottom-$k$ 计算优势值并参与训练
$k=6$（组大小 $G=24$）时在多样性和平衡性间取得最佳折中
显著减少 NFE：从 $24 \times 6$ 降至 $12 \times 6$

损失函数 / 训练策略¶

奖励模型训练： - Qwen2.5-VL-7B + LoRA，学习率 $2 \times 10^{-6}$，batch 32 - 8×H20 GPU，1天完成

RL 训练： - 基础模型：FLUX.1-dev + LoRA（rank=32） - GRPO：学习率 $3 \times 10^{-4}$，clip range $1 \times 10^{-4}$，KL penalty 0.01 - 确定性 ODE 转随机 SDE（Euler-Maruyama 离散化）实现策略探索 - 32×H20 GPU

实验关键数据¶

主实验¶

方法	SpatialScore	DPG-Bench Overall	TIIF-short BR	TIIF-long BR	UniBench-short Lay-2D	UniBench-long Lay-2D
FLUX.1-dev	2.18	82.91	0.769	0.758	0.766	0.819
Flow-GRPO*	3.01	57.02	0.851	0.577	0.726	0.445
Ours	7.81	85.03	0.875	0.845	0.875	0.891

SpatialScore 内部评估从 2.18 提升至 7.81（+258%），且在 DPG-Bench 整体分接近 GPT-Image-1（85.03 vs 85.15）。

奖励模型评估¶

模型	Overall Accuracy
PickScore	0.509
HPSv3	0.605
Qwen2.5-VL-72B	0.764
GPT-5	0.890
Gemini-2.5 Pro	0.951
SpatialScore (7B)	0.958

7B 参数的 SpatialScore 在空间理解评估上超越 GPT-5 和 Gemini-2.5 Pro。

消融实验¶

配置	SpatialScore	DPG-bench Rel	UniBench Lay-3D(long)	NFE/步
w/o top-k	7.73	0.919	0.793	24×6
top-k (k=4)	7.71	0.916	0.796	8×6
top-k (k=6)	7.81	0.932	0.801	12×6

关键发现¶

Flow-GRPO 基于 GenEval 训练在短提示上有改善，但在长提示上严重退化，甚至丢失基础模型的长文本跟随能力
SpatialScore 从 3B 到 7B 准确率从 89.1% 提升至 95.8%，规模效应显著
空间理解提升具有正向迁移效果，DPG-Bench 全五个维度均有提升

亮点与洞察¶

对抗性数据构造：通过空间关系扰动生成偏好对，精准消除非空间因素干扰
7B 模型超越专有模型：专项训练的小模型在特定任务上可超越通用大模型
Top-k 过滤思想简洁有效：解决 GRPO 中提示难度不均导致的优势偏差，同时减少2倍计算
从 SDE/ODE 转换到策略探索的技术路线已较成熟

局限性 / 可改进方向¶

仅关注空间关系，未覆盖其他组合生成维度（如属性绑定、数量准确性等）
SpatialReward-Dataset 依赖强生成模型（Qwen-Image 等），对较弱模型的评估可能有偏
RL 训练计算成本高（32×H20 GPU）
未讨论空间理解提升是否影响美学质量

评分¶

新颖性: ⭐⭐⭐⭐ 首个专门针对空间理解的奖励模型，top-k 过滤策略有价值
实验充分度: ⭐⭐⭐⭐⭐ 多基准测试、详细消融、与多种baseline和专有模型对比全面
写作质量: ⭐⭐⭐⭐ 动机分析和实验呈现清晰，可视化丰富
价值: ⭐⭐⭐⭐ 奖励模型+RL提升生成质量的范式在空间维度的成功验证，具有方法论意义