From "What" to "How": Constrained Reasoning for Autoregressive Image Generation¶
日期: 2026-03-03
arXiv: 2603.02712
代码: 无
领域: 图像生成
关键词: 自回归图像生成, 约束推理, GRPO, 文本到图像, CoT
一句话总结¶
CoR-Painter 提出"How-to-What"范式——先推理空间约束和构图规则(How to draw),再生成详细描述(What to draw),配合双目标 GRPO 分别优化文本推理和视觉投影,在 T2I-CompBench 空间关系指标上提升 5.41%。
研究背景与动机¶
- 领域现状:自回归图像生成结合 CoT 推理和 RL 已成为提升文本到图像质量的主流方法。现有方法(T2I-R1、BiCoT-GRPO)先对输入提示进行扩写,生成详细描述后再生成图像。
- 现有痛点:现有 CoT 方法只关注"What"——把提示扩展为更丰富的描述,但从不推理"How"——如何在空间上组织这些元素。这导致局部合理的描述在全局层面产生矛盾,例如:"水壶在背包上方"和"背包提供背景"两个描述单独合理,但组合起来产生空间歧义,导致生成冗余重叠的物体。
- 核心矛盾:没有约束的自由扩写 → 空间歧义 → 物体重叠/误放。模型需要先建立结构性蓝图再填充细节。
- 切入角度:类比人类画画过程——先构图(确定布局和主次关系),再增添细节。用显式的约束指令指导空间关系、关键属性和构图规则。
- 核心 idea 一句话:在 CoT 推理中先生成结构约束(How),再在约束指导下生成详细描述(What),避免空间歧义。
方法详解¶
整体框架¶
基于 Janus-Pro-7B 多模态模型,输入提示后经过两阶段文本推理:<thought> 部分生成约束指令(How to draw),<description> 部分在约束指导下生成详细描述(What to draw),最后自回归生成图像 token。
关键设计¶
-
How-to-What 文本推理:
- 做什么:将 CoT 扩展为两阶段——先约束推理,再细节描述
<thought>部分输出约束:空间关系约束("should be placed neatly on top of")、视觉属性约束("consider the colors, number, and textures")、场景约束("should be depicted in an outdoor setting")<description>部分在约束指导下生成详细描述:每个物体的外观、相对位置、场景氛围- 设计动机:先有全局蓝图再填充细节,避免局部合理但全局矛盾的空间歧义
-
双目标 GRPO(DO-GRPO):
- 做什么:分别优化文本推理和视觉投影两个过程
- 核心思路:将响应 \(o_i\) 分为文本部分 \(s_i\) 和图像部分 \(t_i\),为两部分设计不同的优势函数
- 文本推理优势:\(A_i^{\text{text}} = \text{normalize}(R_{\text{SA}} + R_{\text{HA}})\)(语义锚定奖励 + 整体对齐奖励)
- 视觉投影优势:\(A_i^{\text{img}} = \text{normalize}(R_{\text{SP}} + R_{\text{HA}})\)(语义投影奖励 + 整体对齐奖励)
- 设计动机:现有 GRPO 用单一奖励同时优化文本和图像,但两者的优化目标不同——文本需要语义一致性和逻辑性,图像需要视觉保真度
-
三级奖励设计:
- 语义锚定奖励 \(R_{\text{SA}}\):评估推理文本与原始提示的语义一致性和逻辑忠实度
- 语义投影奖励 \(R_{\text{SP}}\):评估图像对推理描述的视觉还原度
- 整体对齐奖励 \(R_{\text{HA}}\):评估原始提示与最终图像的直接语义对齐(物体属性+空间关系+场景语义)
- 用 GPT-4o-mini 预提取关键物体、属性、空间关系和数量作为确定性参考
训练策略¶
- 基础模型:Janus-Pro-7B
- GRPO 分组大小 G 组
- 三个奖励模型分别评估属性、空间关系和整体语义
- KL 正则化防止偏离参考策略
实验关键数据¶
T2I-CompBench¶
| 方法 | Color Attr | Shape Attr | Spatial | Non-Spatial |
|---|---|---|---|---|
| Janus-Pro-7B | 63.59 | 35.28 | 35.96 | 37.42 |
| SD3 | 80.94 | 58.64 | 54.55 | — |
| Show-o + PARM | 75.00 | 56.00 | 46.58 | — |
| T2I-R1 | — | — | — | — |
| CoR-Painter | 最优 | 最优 | +5.41% | 最优 |
GenEval¶
| 方法 | Overall | Color | Position | Count |
|---|---|---|---|---|
| Janus-Pro-7B | 0.80 | 0.89 | 0.59 | 0.90 |
| Infinity | 0.73 | 0.85 | — | — |
| CoR-Painter | SOTA | SOTA | SOTA | SOTA |
消融实验¶
| 配置 | Spatial | 说明 |
|---|---|---|
| Full CoR-Painter | 最优 | 完整模型 |
| w/o thought (只 description) | -3~4% | 退化为传统 CoT |
| 单目标 GRPO | -2~3% | 统一奖励不分文本/图像 |
| w/o \(R_{\text{SA}}\) | 下降 | 文本推理质量下降 |
| w/o \(R_{\text{SP}}\) | 下降 | 视觉还原度下降 |
关键发现¶
- 空间关系是提升最大的维度(+5.41%),证明约束推理确实解决了空间歧义问题
- How-to-What 比纯 What(传统 CoT)显著更好,尤其在涉及多物体空间关系的场景
- 双目标 GRPO 比单目标更有效,说明文本推理和图像生成的确需要不同的优化信号
- 即使在基线已经很高的属性绑定指标上也有提升,说明约束推理不仅帮助空间也帮助属性准确性
亮点与洞察¶
- "先约束后描述"是对 CoT 范式的自然且重要的扩展:人类画画先构图后细画,模型也应该先建立结构框架再填充细节,这个类比很直觉
- 双目标 GRPO 将过程级优化引入多模态生成:不同模态用不同优势函数是对 GRPO 的有意义扩展,可以迁移到其他多模态 RL 场景
- 约束推理可以作为 VLM 生成的通用前处理:不仅限于图像生成,视频生成、3D 场景生成都可以先推理空间约束再生成
局限性 / 可改进方向¶
- 约束推理增加了推理长度和延迟
- 依赖 GPT-4o-mini 预提取参考信息,引入了额外的 API 调用成本
- 仅在 Janus-Pro-7B 上验证,未测试在其他自回归模型(如 LlamaGen)上的通用性
- 约束目前是文本形式的,未尝试更结构化的表示(如布局坐标、场景图)
相关工作与启发¶
- vs T2I-R1/BiCoT-GRPO:它们应用 CoT+RL 做 What 级扩写,CoR-Painter 增加了 How 级约束推理
- vs GoT-R1:GoT-R1 集成语义-空间推理,但未显式分离约束和描述
- vs PARM/PARM++:它们用步级评估奖励优化自回归生成,CoR-Painter 从推理结构(How-to-What)层面改进
评分¶
- 新颖性: ⭐⭐⭐⭐ How-to-What 范式转换和双目标 GRPO 都是有洞察力的设计
- 实验充分度: ⭐⭐⭐⭐ T2I-CompBench + GenEval + WISE 三个基准,消融完整
- 写作质量: ⭐⭐⭐⭐⭐ 动机用具体例子说明,对比图非常直观
- 价值: ⭐⭐⭐⭐ 空间关系是图像生成的核心难题,本文提供了有效解法