跳转至

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

日期: 2026-03-03
arXiv: 2603.02712
代码: 无
领域: 图像生成
关键词: 自回归图像生成, 约束推理, GRPO, 文本到图像, CoT

一句话总结

CoR-Painter 提出"How-to-What"范式——先推理空间约束和构图规则(How to draw),再生成详细描述(What to draw),配合双目标 GRPO 分别优化文本推理和视觉投影,在 T2I-CompBench 空间关系指标上提升 5.41%。

研究背景与动机

  1. 领域现状:自回归图像生成结合 CoT 推理和 RL 已成为提升文本到图像质量的主流方法。现有方法(T2I-R1、BiCoT-GRPO)先对输入提示进行扩写,生成详细描述后再生成图像。
  2. 现有痛点:现有 CoT 方法只关注"What"——把提示扩展为更丰富的描述,但从不推理"How"——如何在空间上组织这些元素。这导致局部合理的描述在全局层面产生矛盾,例如:"水壶在背包上方"和"背包提供背景"两个描述单独合理,但组合起来产生空间歧义,导致生成冗余重叠的物体。
  3. 核心矛盾:没有约束的自由扩写 → 空间歧义 → 物体重叠/误放。模型需要先建立结构性蓝图再填充细节。
  4. 切入角度:类比人类画画过程——先构图(确定布局和主次关系),再增添细节。用显式的约束指令指导空间关系、关键属性和构图规则。
  5. 核心 idea 一句话:在 CoT 推理中先生成结构约束(How),再在约束指导下生成详细描述(What),避免空间歧义。

方法详解

整体框架

基于 Janus-Pro-7B 多模态模型,输入提示后经过两阶段文本推理:<thought> 部分生成约束指令(How to draw),<description> 部分在约束指导下生成详细描述(What to draw),最后自回归生成图像 token。

关键设计

  1. How-to-What 文本推理

    • 做什么:将 CoT 扩展为两阶段——先约束推理,再细节描述
    • <thought> 部分输出约束:空间关系约束("should be placed neatly on top of")、视觉属性约束("consider the colors, number, and textures")、场景约束("should be depicted in an outdoor setting")
    • <description> 部分在约束指导下生成详细描述:每个物体的外观、相对位置、场景氛围
    • 设计动机:先有全局蓝图再填充细节,避免局部合理但全局矛盾的空间歧义
  2. 双目标 GRPO(DO-GRPO)

    • 做什么:分别优化文本推理和视觉投影两个过程
    • 核心思路:将响应 \(o_i\) 分为文本部分 \(s_i\) 和图像部分 \(t_i\),为两部分设计不同的优势函数
    • 文本推理优势:\(A_i^{\text{text}} = \text{normalize}(R_{\text{SA}} + R_{\text{HA}})\)(语义锚定奖励 + 整体对齐奖励)
    • 视觉投影优势:\(A_i^{\text{img}} = \text{normalize}(R_{\text{SP}} + R_{\text{HA}})\)(语义投影奖励 + 整体对齐奖励)
    • 设计动机:现有 GRPO 用单一奖励同时优化文本和图像,但两者的优化目标不同——文本需要语义一致性和逻辑性,图像需要视觉保真度
  3. 三级奖励设计

    • 语义锚定奖励 \(R_{\text{SA}}\):评估推理文本与原始提示的语义一致性和逻辑忠实度
    • 语义投影奖励 \(R_{\text{SP}}\):评估图像对推理描述的视觉还原度
    • 整体对齐奖励 \(R_{\text{HA}}\):评估原始提示与最终图像的直接语义对齐(物体属性+空间关系+场景语义)
    • 用 GPT-4o-mini 预提取关键物体、属性、空间关系和数量作为确定性参考

训练策略

  • 基础模型:Janus-Pro-7B
  • GRPO 分组大小 G 组
  • 三个奖励模型分别评估属性、空间关系和整体语义
  • KL 正则化防止偏离参考策略

实验关键数据

T2I-CompBench

方法 Color Attr Shape Attr Spatial Non-Spatial
Janus-Pro-7B 63.59 35.28 35.96 37.42
SD3 80.94 58.64 54.55
Show-o + PARM 75.00 56.00 46.58
T2I-R1
CoR-Painter 最优 最优 +5.41% 最优

GenEval

方法 Overall Color Position Count
Janus-Pro-7B 0.80 0.89 0.59 0.90
Infinity 0.73 0.85
CoR-Painter SOTA SOTA SOTA SOTA

消融实验

配置 Spatial 说明
Full CoR-Painter 最优 完整模型
w/o thought (只 description) -3~4% 退化为传统 CoT
单目标 GRPO -2~3% 统一奖励不分文本/图像
w/o \(R_{\text{SA}}\) 下降 文本推理质量下降
w/o \(R_{\text{SP}}\) 下降 视觉还原度下降

关键发现

  • 空间关系是提升最大的维度(+5.41%),证明约束推理确实解决了空间歧义问题
  • How-to-What 比纯 What(传统 CoT)显著更好,尤其在涉及多物体空间关系的场景
  • 双目标 GRPO 比单目标更有效,说明文本推理和图像生成的确需要不同的优化信号
  • 即使在基线已经很高的属性绑定指标上也有提升,说明约束推理不仅帮助空间也帮助属性准确性

亮点与洞察

  • "先约束后描述"是对 CoT 范式的自然且重要的扩展:人类画画先构图后细画,模型也应该先建立结构框架再填充细节,这个类比很直觉
  • 双目标 GRPO 将过程级优化引入多模态生成:不同模态用不同优势函数是对 GRPO 的有意义扩展,可以迁移到其他多模态 RL 场景
  • 约束推理可以作为 VLM 生成的通用前处理:不仅限于图像生成,视频生成、3D 场景生成都可以先推理空间约束再生成

局限性 / 可改进方向

  • 约束推理增加了推理长度和延迟
  • 依赖 GPT-4o-mini 预提取参考信息,引入了额外的 API 调用成本
  • 仅在 Janus-Pro-7B 上验证,未测试在其他自回归模型(如 LlamaGen)上的通用性
  • 约束目前是文本形式的,未尝试更结构化的表示(如布局坐标、场景图)

相关工作与启发

  • vs T2I-R1/BiCoT-GRPO:它们应用 CoT+RL 做 What 级扩写,CoR-Painter 增加了 How 级约束推理
  • vs GoT-R1:GoT-R1 集成语义-空间推理,但未显式分离约束和描述
  • vs PARM/PARM++:它们用步级评估奖励优化自回归生成,CoR-Painter 从推理结构(How-to-What)层面改进

评分

  • 新颖性: ⭐⭐⭐⭐ How-to-What 范式转换和双目标 GRPO 都是有洞察力的设计
  • 实验充分度: ⭐⭐⭐⭐ T2I-CompBench + GenEval + WISE 三个基准,消融完整
  • 写作质量: ⭐⭐⭐⭐⭐ 动机用具体例子说明,对比图非常直观
  • 价值: ⭐⭐⭐⭐ 空间关系是图像生成的核心难题,本文提供了有效解法