SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained T2I Generation¶

日期: 2026-03-23
arXiv: 2603.22228
代码: SpatialReward
领域: 图像生成 / 空间一致性
关键词: spatial reward, text-to-image, reinforcement learning, verifiable reward, chain-of-thought

一句话总结¶

提出 SpatialReward，通过 Prompt 分解→专家检测器精确定位→VLM CoT 推理三阶段流水线构建可验证的空间 reward model，配合 SpatRelBench 基准（覆盖朝向、3D 关系、文字放置），在 SD3.5/FLUX 上用 RL 训练显著提升空间一致性。

研究背景与动机¶

领域现状: T2I 模型通过 RL+reward model 优化语义对齐和视觉质量（GRPO 等），但现有 reward model 主要关注全局语义和粗粒度质量。
现有痛点: 两类 RM 的弱点互补但各有盲区——结构化方法（GenEval）依赖固定格式 prompt + 预定义检测器，泛化差；整体评分方法（CLIPScore/VisionReward）处理任意 prompt 但缺乏空间细粒度验证，无法检测位置错误。
核心矛盾: 图像在全局语义上看起来合理，但物体位置关系（左右、上下、前后、朝向）经常出错。现有 RM "看不到"这些空间错误。
切入角度: 受逻辑推理领域"可验证 reward"成功的启发，用专家检测器提供客观可验证的位置/属性事实，再用 VLM 做 CoT 推理评估复杂空间关系。
核心 idea: Prompt 分解 + 专家检测器（可验证事实） + VLM CoT（复杂推理）= 可验证的空间 reward model。

方法详解¶

整体框架¶

标准 Flow-GRPO RL 训练 + SpatialReward 替代传统 RM。SpatialReward 三阶段：(a) Prompt Decomposer 解析结构化约束；(b) 专家检测器验证物体属性/位置/文字；(c) VLM CoT 推理评估复杂空间关系。

关键设计¶

Prompt Decomposer:
- 将自由文本 prompt 解析为结构化约束集 \(\mathcal{C} = (\text{tag}, \mathcal{C}_{inc}, \mathcal{C}_{exc})\)
- 每个原子约束包含：物体类别、数量、属性、空间关系、文字内容
- 用 100k 元数据-prompt 对训练 Qwen2.5-VL-7B 做分解
细粒度可验证 Reward:
- 存在性 reward: \(\mathcal{R}_{presence} = \mathbb{I}(\hat{N}_c > 0)\)
- 计数 reward: \(\mathcal{R}_{count} = \exp(-|\hat{N}_c - N_c^*|)\)
- 颜色 reward: CLIP 分类器在裁剪区域评估
- 朝向 reward: \(\mathcal{R}_{ori} = \mathbb{I}(|\theta_{det} - \theta^*| \leq \delta_\theta)\)
- 深度 reward: 单目深度估计验证前后关系
- 文字 reward: OCR 检测 + IoA 定位验证
Spatial CoT 推理:
- 用 Qwen2.5-VL 做 CoT backbone
- 输入包括目标关系、检测框、前阶段各属性 reward 分数
- VLM 逐步推理：解释属性 reward → 几何分析 → 判断关系是否成立
- 包含/排除约束分别给正/负分：\(\mathcal{R}_{total} = \sum_{inc} \mathcal{R}^+ - \sum_{exc} \mathcal{R}^-\)

SpatRelBench 基准¶

覆盖 6 个维度：位置-文字 OCR、计数-文字 OCR、复杂空间关系、朝向、3D 空间关系，比 GenEval 和 T2I-CompBench 更全面。

实验关键数据¶

GenEval + SpatRelBench 对比¶

Reward Model	GenEval Overall	SpatRelBench Overall
SD3.5-M (baseline)	0.67	0.23
+ PickScore	0.74	0.24
+ ImageReward	-	-
+ SpatialReward	最佳	最佳
GPT Image 1	0.84	0.37

关键发现¶

SpatialReward 在 GenEval 和 SpatRelBench 上均超越 PickScore/ImageReward 等 holistic RM
朝向和 3D 空间关系是所有模型最薄弱的维度（GPT Image 1 仅 0.15/0.45）
可验证 reward 的关键在于检测器提供"事实基础"，避免 VLM 幻觉

亮点与洞察¶

可验证 reward 从推理迁移到视觉: 将 DeepSeek-R1 式的 rule-based verifiable reward 思路扩展到图像空间评估
检测器+VLM 协作：检测器提供客观事实，VLM 做需要语义理解的复杂推理，各司其职
SpatRelBench 填补空白: 朝向、3D 位关系、文字放置是之前 benchmark 不覆盖的

局限性 / 可改进方向¶

检测器本身的精度和泛化性限制了 reward 质量
CoT 推理依赖 VLM（Qwen2.5-VL），可能引入推理错误
multi-stage pipeline 推理开销大，RL 训练效率可能受影响
SpatRelBench 规模相对较小（1k objects）

评分¶

新颖性: ⭐⭐⭐⭐ 可验证 reward 在 T2I 空间评估中的新应用
实验充分度: ⭐⭐⭐⭐ SD3.5 和 FLUX 两个基座，多 reward model 对比
写作质量: ⭐⭐⭐⭐ 框架清晰，公式规范
价值: ⭐⭐⭐⭐ 对 T2I 空间控制和 RL tuning 有实际意义