From "What" to "How": Constrained Reasoning for Autoregressive Image Generation¶

日期: 2026-03-03
arXiv: 2603.02712
代码: 无
领域: 图像生成
关键词: 自回归图像生成, 约束推理, GRPO, 文本到图像, CoT

一句话总结¶

CoR-Painter 提出"How-to-What"范式——先推理空间约束和构图规则（How to draw），再生成详细描述（What to draw），配合双目标 GRPO 分别优化文本推理和视觉投影，在 T2I-CompBench 空间关系指标上提升 5.41%。

研究背景与动机¶

领域现状：自回归图像生成结合 CoT 推理和 RL 已成为提升文本到图像质量的主流方法。现有方法（T2I-R1、BiCoT-GRPO）先对输入提示进行扩写，生成详细描述后再生成图像。
现有痛点：现有 CoT 方法只关注"What"——把提示扩展为更丰富的描述，但从不推理"How"——如何在空间上组织这些元素。这导致局部合理的描述在全局层面产生矛盾，例如："水壶在背包上方"和"背包提供背景"两个描述单独合理，但组合起来产生空间歧义，导致生成冗余重叠的物体。
核心矛盾：没有约束的自由扩写 → 空间歧义 → 物体重叠/误放。模型需要先建立结构性蓝图再填充细节。
切入角度：类比人类画画过程——先构图（确定布局和主次关系），再增添细节。用显式的约束指令指导空间关系、关键属性和构图规则。
核心 idea 一句话：在 CoT 推理中先生成结构约束（How），再在约束指导下生成详细描述（What），避免空间歧义。

方法详解¶

整体框架¶

基于 Janus-Pro-7B 多模态模型，输入提示后经过两阶段文本推理：<thought> 部分生成约束指令（How to draw），<description> 部分在约束指导下生成详细描述（What to draw），最后自回归生成图像 token。

关键设计¶

How-to-What 文本推理：
- 做什么：将 CoT 扩展为两阶段——先约束推理，再细节描述
- <thought> 部分输出约束：空间关系约束（"should be placed neatly on top of"）、视觉属性约束（"consider the colors, number, and textures"）、场景约束（"should be depicted in an outdoor setting"）
- <description> 部分在约束指导下生成详细描述：每个物体的外观、相对位置、场景氛围
- 设计动机：先有全局蓝图再填充细节，避免局部合理但全局矛盾的空间歧义
双目标 GRPO（DO-GRPO）：
- 做什么：分别优化文本推理和视觉投影两个过程
- 核心思路：将响应 \(o_i\) 分为文本部分 \(s_i\) 和图像部分 \(t_i\)，为两部分设计不同的优势函数
- 文本推理优势：\(A_i^{\text{text}} = \text{normalize}(R_{\text{SA}} + R_{\text{HA}})\)（语义锚定奖励 + 整体对齐奖励）
- 视觉投影优势：\(A_i^{\text{img}} = \text{normalize}(R_{\text{SP}} + R_{\text{HA}})\)（语义投影奖励 + 整体对齐奖励）
- 设计动机：现有 GRPO 用单一奖励同时优化文本和图像，但两者的优化目标不同——文本需要语义一致性和逻辑性，图像需要视觉保真度
三级奖励设计：
- 语义锚定奖励 \(R_{\text{SA}}\)：评估推理文本与原始提示的语义一致性和逻辑忠实度
- 语义投影奖励 \(R_{\text{SP}}\)：评估图像对推理描述的视觉还原度
- 整体对齐奖励 \(R_{\text{HA}}\)：评估原始提示与最终图像的直接语义对齐（物体属性+空间关系+场景语义）
- 用 GPT-4o-mini 预提取关键物体、属性、空间关系和数量作为确定性参考

训练策略¶

基础模型：Janus-Pro-7B
GRPO 分组大小 G 组
三个奖励模型分别评估属性、空间关系和整体语义
KL 正则化防止偏离参考策略

实验关键数据¶

T2I-CompBench¶

方法	Color Attr	Shape Attr	Spatial	Non-Spatial
Janus-Pro-7B	63.59	35.28	35.96	37.42
SD3	80.94	58.64	54.55	—
Show-o + PARM	75.00	56.00	46.58	—
T2I-R1	—	—	—	—
CoR-Painter	最优	最优	+5.41%	最优

GenEval¶

方法	Overall	Color	Position	Count
Janus-Pro-7B	0.80	0.89	0.59	0.90
Infinity	0.73	0.85	—	—
CoR-Painter	SOTA	SOTA	SOTA	SOTA

消融实验¶

配置	Spatial	说明
Full CoR-Painter	最优	完整模型
w/o thought (只 description)	-3~4%	退化为传统 CoT
单目标 GRPO	-2~3%	统一奖励不分文本/图像
w/o \(R_{\text{SA}}\)	下降	文本推理质量下降
w/o \(R_{\text{SP}}\)	下降	视觉还原度下降

关键发现¶

空间关系是提升最大的维度（+5.41%），证明约束推理确实解决了空间歧义问题
How-to-What 比纯 What（传统 CoT）显著更好，尤其在涉及多物体空间关系的场景
双目标 GRPO 比单目标更有效，说明文本推理和图像生成的确需要不同的优化信号
即使在基线已经很高的属性绑定指标上也有提升，说明约束推理不仅帮助空间也帮助属性准确性

亮点与洞察¶

"先约束后描述"是对 CoT 范式的自然且重要的扩展：人类画画先构图后细画，模型也应该先建立结构框架再填充细节，这个类比很直觉
双目标 GRPO 将过程级优化引入多模态生成：不同模态用不同优势函数是对 GRPO 的有意义扩展，可以迁移到其他多模态 RL 场景
约束推理可以作为 VLM 生成的通用前处理：不仅限于图像生成，视频生成、3D 场景生成都可以先推理空间约束再生成

局限性 / 可改进方向¶

约束推理增加了推理长度和延迟
依赖 GPT-4o-mini 预提取参考信息，引入了额外的 API 调用成本
仅在 Janus-Pro-7B 上验证，未测试在其他自回归模型（如 LlamaGen）上的通用性
约束目前是文本形式的，未尝试更结构化的表示（如布局坐标、场景图）

评分¶

新颖性: ⭐⭐⭐⭐ How-to-What 范式转换和双目标 GRPO 都是有洞察力的设计
实验充分度: ⭐⭐⭐⭐ T2I-CompBench + GenEval + WISE 三个基准，消融完整
写作质量: ⭐⭐⭐⭐⭐ 动机用具体例子说明，对比图非常直观
价值: ⭐⭐⭐⭐ 空间关系是图像生成的核心难题，本文提供了有效解法