跳转至

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

会议: CVPR 2026
arXiv: 2603.06043
领域: 图像生成 / 多模态统一模型
关键词: 统一多模态模型, 自监督强化学习, 内在奖励, 文图对齐, GRPO, 理解增强生成

一句话总结

提出 GvU,利用统一多模态模型(UMM)自身的视觉理解分支作为内在奖励信号,通过 token 级文图对齐概率构建自监督 RL 框架(基于 GRPO),在无外部监督下迭代提升 T2I 生成质量,GenEval++ 上实现 43.3% 提升,且生成增强反过来促进细粒度理解。

研究背景与动机

领域现状:UMM 通过共享骨干整合视觉理解和生成,理论上可实现复杂指令跟随的 T2I 任务。代表模型包括 Chameleon、Emu3、Janus、BAGEL、Show-o、BLIP3-o 等。

核心问题:UMM 存在严重的理解-生成能力不对称——理解分支通常远强于生成分支。联合训练两个任务还会导致负迁移,优化一个任务损害另一个。

现有方案不足:传统 RL 用图像级外部奖励(如 ImageReward、PickScore),粒度太粗无法捕捉细微语义,容易 reward hacking,且依赖外部模型。

核心洞察:理解(图→文)和生成(文→图)是对偶任务。UMM 已有的强理解能力天然可作"老师",评估自己生成的图像与文本的对齐度,无需外部监督。

核心idea:用 UMM 理解分支计算生成图像对原始 prompt 各 token 的条件概率作为细粒度内在奖励,驱动 GRPO 自监督 RL。

方法详解

整体框架

基于 AR+扩散头混合架构的 UMM(X-Omni),包含三个核心组件:(1) 自生成数据管线——仅用文本 prompt 生成图像,形成闭环;(2) Token 级内在奖励——理解分支评估生成图像;(3) 自监督 GRPO RL——迭代优化生成策略。

关键设计

  1. 自生成管线:

    • 给定文本 prompt \(T = T_{1:L}\),生成分支自回归生成图像 token \(I_{1:L_I}\),经扩散头解码为像素图像
    • 理解分支接收生成图像 + 系统指令,计算原始 prompt token 的自回归条件概率
    • 整个过程不需要外部图像数据或模型,完全闭环
  2. Token 级内在奖励(GvU 核心):

    • 给定生成图像 \(I\) 和原始 prompt \(T_{1:L}\),计算每个 token 的条件概率:\(p_\theta(T_j|\mathbf{X}_{j-1}) = \text{Softmax}(\text{Logits}_\theta(\mathbf{X}_{j-1})[T_j])\)
    • 整体对齐概率为几何均值(消除长度偏差):\(P(T_{1:L}|I) = (\prod_{j=1}^{L} p_\theta(T_j|\mathbf{X}_{j-1}))^{1/L}\)
    • 设计动机:与图像级奖励不同,token 级概率提供密集细粒度信号,可区分颜色、数量、位置等细微语义差异
  3. 自监督 GRPO 优化:

    • 对每个 prompt 生成 \(G\) 个轨迹,各得到奖励 \(R_i = P(T|I_i)\)
    • 组内相对优势估计:\(A_i = \frac{R_i - \text{mean}(\{R_i\})}{\text{std}(\{R_i\})}\)
    • 最大化裁剪 GRPO 目标(含 KL 散度约束),无需维护价值函数或外部奖励模型
    • 训练用 LoRA 微调,50k 文本 prompt 训练集

损失函数

\[\mathcal{J}_{GRPO}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum_{i=1}^{G}\min\left(r_i(\theta)A_i, \text{clip}(r_i(\theta),1-\epsilon,1+\epsilon)A_i\right) - \beta D_{KL}(\pi_\theta \| \pi_{ref})\right]\]

实验关键数据

主实验:GenEval 基准

模型 单物体↑ 双物体↑ 计数↑ 颜色↑ 位置↑ 属性绑定↑ Overall↑
FLUX.1-dev 0.99 0.81 0.79 0.74 0.20 0.47 0.67
Janus-Pro 0.99 0.89 0.59 0.90 0.79 0.66 0.80
BAGEL 0.99 0.94 0.80 0.87 0.64 0.63 0.81
X-Omni (base) 1.00 0.94 0.60 0.85 0.40 0.26 0.68
GvU 1.00 0.96 0.74 0.92 0.61 0.58 0.81
GvU† 1.00 0.97 0.80 0.93 0.68 0.65 0.84

主实验:GenEval++ 基准

模型 Color↑ Count↑ Color/Pos↑ Pos/Count↑ Pos/Size↑ Multi-Count↑ Overall↑
FLUX.1-dev 0.350 0.625 0.275 0.200 0.375 0.225 0.314
BAGEL 0.325 0.600 0.325 0.250 0.475 0.375 0.371
X-Omni (base) 0.225 0.500 0.325 0.150 0.475 0.275 0.282
GvU 0.300 0.400 0.575 0.525 0.675 0.400 0.404

消融:理解能力同步提升(MMT-Bench 细粒度子任务)

模型 Overall 视觉识别↑ 视觉幻觉↑ 幻觉检测↑ 常识推理↑ 学科知识↑
Base 49.76 51.21 45.57 66.25 70.0 38.46
GvU 49.92 52.58 50.63 68.75 75.0 42.31

消融:弱基座 vs 正常基座

基座 GenEval 提升 差距大小
正常基座 0.68→0.81 (+19.1%) 较小
弱基座 0.21→0.50 (+138.1%) 较大

关键发现

  • GenEval++ 上 43.3% 提升(0.282→0.404),混合类别(pos/count、pos/size)提升最显著
  • 内在奖励在 RL 训练中持续稳定增长,呈累积效应而非突变
  • 增强生成反过来促进细粒度理解:视觉幻觉检测 +5.06,常识推理 +5.0
  • 理解-生成差距越大的弱基座获益越多(+138.1% vs +19.1%),验证"理解指导生成"机制
  • 移除 prompt 中的计数/颜色/区域词后奖励显著下降,验证内在奖励对细粒度语义的敏感性

亮点与洞察

  • 自教学范式:UMM 理解分支做"老师"、生成分支做"学生",无需外部奖励模型
  • Token 级奖励:比图像级奖励粒度细得多,可区分颜色/数量/位置等细微语义
  • 理解-生成协同增强:首次实证表明 UMM 中增强生成可反向改善细粒度理解
  • 通用框架:适用于任何 AR+扩散头混合架构 UMM

局限性

  • 理解能力提升幅度仍较小(MMT-Bench 总分仅 +0.16),协同增强有待进一步探索
  • 仅在 X-Omni 架构验证,需更多 UMM 架构泛化实验
  • 训练需要每个 prompt 生成多个样本(GRPO 的 G 组采样),计算开销较大

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次提出 token 级内在奖励 + 自监督 RL 桥接 UMM 理解-生成鸿沟
  • 实验充分度: ⭐⭐⭐⭐ GenEval/GenEval++/DPG-Bench + 理解基准 + 弱基座消融
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰动机充分
  • 实用价值: ⭐⭐⭐⭐ 开源 RL 框架 + 无需额外数据标注

相关论文