Janus-Pro-R1: Advancing Collaborative Visual Comprehension and Generation via Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2506.01480
代码: https://janus-pro-r1.github.io (项目主页)
领域: 多模态大语言模型 / 图像生成
关键词: MLLM, 视觉生成, reinforcement-learning, Chain-of-Thought, Aha Moment

一句话总结¶

提出 Janus-Pro-R1，通过两阶段训练（SFT + RL）实现视觉理解与生成的协同共进，让 MLLM 在文本到图像生成中形成真正的 Chain-of-Thought 并触发 Aha 时刻，在 GenEval 上超越 GPT-4o，同时拓展到图像编辑任务。

研究背景与动机¶

当前多模态大语言模型（MLLMs）虽然将视觉理解和生成统一在同一个 next-token prediction 框架中，但这两种能力实际上仍然是独立运作的——视觉理解并不能增强视觉生成，LLM 强大的推理机制也没有被充分整合到图像生成中。例如 Janus-Pro 这样的 SOTA 模型在文本到图像生成上仍不令人满意，且仅支持纯文本输入进行生成。

核心矛盾在于：视觉理解和生成之间缺乏协同效应。本文的切入角度是让 MLLM 能够将理解和生成能力自然地协同合作，将图像生成变成一个迭代内省过程——生成图像后自我评估，发现问题后重新生成，形成真正的 CoT 推理链并触发"Aha 时刻"。

方法详解¶

整体框架¶

Janus-Pro-R1 采用两阶段训练： 1. 监督微调（SFT）阶段：通过混合子任务训练，教会 MLLM 构建视觉生成 CoT 的基本能力 2. 强化学习（RL）阶段：通过 GRPO 算法在探索-利用权衡中释放模型全部潜力，从模仿升级为真正的推理

关键设计¶

混合子任务训练（SFT 阶段）：将视觉生成 CoT 分解为三个子任务进行混合训练——
- Task-I 文本到图像生成：选择语义一致性分数 S≥0.8 的文本-图像对进行标准 T2I 训练
- Task-II 文本-图像一致性自评估：训练模型判断生成图像是否与文本语义一致，并给出判断理由
- Task-III 图像重新生成：给定之前错误生成的上下文，训练模型纠正错误并重新生成更准确的图像
- 训练数据使用 200K prompt，每个 prompt 由 FLUX 和 Janus-Pro 生成 18 张图像，用 InternVL2.5-26B 评估语义一致性分数
双层 QA 奖励的强化学习（RL 阶段）：
- 使用 GRPO 算法，将图像生成视为长 token 级马尔可夫决策过程
- 设计双层奖励：生成奖励 R^Gen（评估生成图像质量）和理解奖励 R^Comp（评估自我评估的准确性）
- 生成奖励对最终输出图像赋予更高权重；理解奖励衡量模型自评估与外部评估器的一致程度
- 使用 InternVL2.5-26B 作为奖励模型，无需真实图像标注
从文本到图像生成扩展到图像编辑：
- 图像编辑本质上也需要理解编辑指令 + 生成新图像，与内省式生成共享相同基础
- 同样采用 SFT + RL 两阶段训练
- RL 奖励包括跟随分数 R^flw（是否准确执行编辑指令）和保持分数 R^psv（未编辑区域是否保持不变）

损失函数 / 训练策略¶

SFT 阶段：三个子任务按 0.2:0.3:0.5 比例混合训练，50K 步，学习率 2e-5
RL 阶段：GRPO 目标函数带 KL 散度约束（β=0.05），组大小 7，3K 步
训练稳定性技巧：采用线性+余弦学习率调度器；奖励曲线下降时降低学习率或更新参考模型

实验关键数据¶

主实验（文本到图像生成）¶

基准	指标	Janus-Pro-R1 (Aha)	Janus-Pro-7B	GPT-4o	提升
GenEval	Overall↑	0.86	0.80	0.85	+7.5%
T2I-CompBench	Avg↑	72.7	49.4	-	+47.0%
DPG-Bench	Score↑	85.57	84.17	-	+1.7%
GenEval	Counting↑	0.66	0.59	0.85	+11.9%
GenEval	Position↑	0.87	0.79	0.75	+10.1%
GenEval	ColorAttr↑	0.78	0.66	0.66	+18.2%

消融实验¶

配置	GenEval Overall	说明
Janus-Pro-7B 基线	0.80	原始模型
SFT (w/o aha)	0.81	SFT 仅带来微小提升
SFT (with aha)	0.81	内省机制初步生效
R1 (w/o aha)	0.83	RL 显著提升初始生成质量
R1 (with aha)	0.86	内省+RL 达到最佳
R1-1B (with aha)	0.71	小模型无法有效激活 Aha
仅 Task-I SFT	0.79	单任务效果不如混合
仅 Task-II+III SFT	0.76	缺少 T2I 基础能力

关键发现¶

Janus-Pro-R1 在 GenEval Overall 上超越 GPT-4o（0.86 vs 0.85）
SFT 偏向模仿记忆，RL 才能实现真正泛化（反事实生成如"方形苹果"可验证）
1B 参数模型无法有效激活 Aha 时刻，体现 scaling law
数据质量比数量更重要：高阈值筛选虽减少数据量但显著提升性能
Janus-Pro-R1 作为图像语义评估器，与 GenEval 标准的一致率达 81.1%，超越 InternVL2.5-8B

亮点与洞察¶

"Aha 时刻"的概念非常精炼：将扩散模型/AR 模型的图像生成变成迭代内省过程，让模型自己发现并纠正问题
双层奖励设计巧妙：同时奖励生成质量和自评估准确性，推动理解与生成的真正协同
RL 是关键催化剂：SFT 只是冷启动，RL 才是让模仿变为真正推理的关键
统一生成的正确路径：证明了理解+生成的协同可以自然地扩展到图像编辑等高级任务
反事实生成案例（方形苹果）很好地展示了 RL 后模型的推理泛化能力

局限与展望¶

Counting 相关训练数据较少，计数能力落后于 GPT-4o
图像编辑数据集美学质量不高，影响编辑结果的美观度
当前仅在简单 T2I 任务上验证了理解-生成协同，更复杂的交错图文生成任务有待探索
1B 模型无法受益于此训练范式，小模型适用性受限
训练需要 32 张 A800 GPU，计算资源需求较大

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐