RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment¶

会议: CVPR 2026
arXiv: 2603.00483
代码: https://github.com/LiyaoJiang1998/RAISE
领域: 图像生成
关键词: 推理时计算缩放, 文本-图像对齐, 进化优化, 需求驱动, 多智能体

一句话总结¶

提出 RAISE 框架，将 T2I 生成建模为需求驱动的自适应进化过程：通过需求分析器将提示词分解为结构化检查清单，用多动作变异（提示重写+噪声重采样+指令编辑）并发进化候选群体，再通过工具增强的视觉验证逐轮淘汰不满足需求的候选，实现自适应推理时缩放——在 GenEval 上达到 0.94 SOTA，同时比反射微调基线减少 30-40% 生成样本和 80% VLM 调用。

研究背景与动机¶

领域现状：T2I 扩散模型虽然能生成逼真图像，但对复杂提示（多物体、空间关系、属性绑定）的忠实度仍有不足。推理时缩放（inference-time scaling）通过在推理时分配额外计算来改善对齐，成为新兴方向，包括噪声级缩放（如随机搜索最优初始噪声）和提示级缩放（用 VLM 重写提示）。

现有痛点： - Training-free 方法（TIR、T2I-Copilot）：依赖固定迭代预算或阈值，无法适应不同提示的难度差异；多轮改进时效果停滞甚至退化；T2I-Copilot 每轮只选单一动作，探索有限 - Training-based 方法（Reflect-DiT、ReflectionFlow）：需要大规模反射数据集+联合微调扩散模型和 VLM，成本高、过拟合反射路径、不易迁移到新基础模型 - 所有方法都缺乏从提示本身分析"到底哪些需求没满足"的能力

核心矛盾：现有方法要么计算分配固定（简单提示浪费、复杂提示不够），要么依赖训练（模型绑定、成本高），没有将"需求满足程度"作为计算分配的驱动信号。

切入角度：将 T2I 生成类比为软件工程的"需求分析→实现→验证"流程——先将用户提示分解为可验证需求清单，每轮识别未满足项，仅针对性分配计算，满足即停。

核心idea：需求驱动的自适应进化框架——多智能体（分析器、重写器、验证器）协同工作，通过多动作变异并发生成候选群体，工具增强的结构化验证提供精细反馈，计算量自适应于语义复杂度。

方法详解¶

整体框架¶

RAISE 是一个三智能体系统，共享同一 VLM 骨干（Mistral-Small-3.2）： - 分析器：解析用户提示→生成需求清单 \(\mathcal{R}_i\)（含已满足 \(\mathcal{R}_i^+\) 和未满足 \(\mathcal{R}_i^-\)）+ 对应二值验证问题 \(Q_i\) + 是否继续决策 \(d_i^{analyzer}\) - 重写器：根据 \(\mathcal{R}_i^-\) 生成改进的提示词或编辑指令 - 验证器：用视觉工具提取证据，逐项回答验证问题，输出满足状态

关键设计¶

需求驱动的自适应缩放
- 功能：根据需求满足程度动态决定是否继续迭代
- 核心思路：分析器在每轮开始时接收用户提示、上轮最佳候选图像及其验证反馈，输出更新的需求清单。迭代在以下任一条件满足时终止：(a) 分析器判定主要需求已满足；(b) 验证器确认所有需求已满足；(c) 达到最大轮次 \(K_{max}=4\)
- 设计动机：简单提示 1-2 轮即可收敛，复杂提示自动获得更多计算预算，避免固定预算的浪费/不足
多动作变异精炼
- 功能：在每轮并发执行多种互补的改进策略
- 三种变异动作：
  - (1) 重采样：保持原始提示 \(x_{user}\)，只更换随机噪声 \(\epsilon \sim \mathcal{N}(0,I)\)，探索不同空间布局
  - (2) 提示重写：重写器根据 \(\mathcal{R}_i^-\) 修改提示语义，搭配多个新噪声生成候选
  - (3) 指令编辑：基于上轮最佳图像，生成三种编辑指令——top edit（最重要未满足项）、random edit（随机未满足项）、comprehensive edit（所有未满足项），使用 Flux Kontext 执行指令化编辑
- 策略调度：前期（\(i \leq K_{min}\)）使用生成式变异（重采样+重写）做广探索；后期（\(i > K_{min}\)）使用重写+编辑做定向精炼
- 每轮固定产生 \(n_i = 8\) 个候选
结构化工具增强验证
- 功能：弥合视觉感知和文本推理之间的鸿沟
- 核心思路：用视觉工具（Grounded SAM 2 + Florence-2 做检测/描述，MiDaS 做深度估计）从候选图像中提取结构化证据 \(G_{i,j} = (caption, \{(label_k, bbox_k, depth_k)\}, image\_size)\)
- 验证器将证据+验证问题一起输入 VLM，对每个需求输出（问题、是/否答案、解释）三元组
- 适应度评分：使用 NVILA-Lite-2B-Verifier 计算用户提示与图像的对齐分数，选择全局最优候选
- 设计动机：直接用 VLM 看图判断容易产生幻觉，工具提供的目标检测/深度信息为推理提供可靠锚点

实现细节¶

生成器：FLUX.1-dev（28步扩散）；编辑器：FLUX.1-Kontext-dev
VLM 骨干：Mistral-Small-3.2-24B，由 LangGraph 编排，Ollama 本地推理
适应度函数：NVILA-Lite-2B-Verifier
\(K_{max}=4\), \(K_{min}=2\)

实验关键数据¶

主实验（GenEval）¶

方法	类型	样本数	VLM调用	整体	Two Obj	Counting	Colors	Position	Attr Bind
FLUX.1-dev	基线	1	0	0.67	0.81	0.75	0.80	0.21	0.48
ReflectionFlow	Train	32	64	0.91	0.98	0.89	0.95	0.89	0.75
Qwen-Image-RL	UMM	1	1	0.91	0.95	0.93	0.92	0.87	0.83
T2I-Copilot	Free	11.3	22.6	0.74	0.91	0.68	0.86	0.55	0.46
RAISE	Free	18.6	7.3	0.94	1.00	0.95	0.98	0.83	0.87

DrawBench 对比¶

方法	样本数	VLM调用	VQAScore↑	ImageReward↑	HPSv2↑
FLUX.1-dev	1	0	0.778	1.06	0.298
ReflectionFlow (32)	32	64	0.844	1.10	0.302
T2I-Copilot	11.2	22.3	0.820	0.94	0.298
RAISE (≤4轮)	21.2	8.6	0.885	1.15	0.305

关键发现¶

GenEval 整体 0.94 超越所有方法，包括需要大规模预训练的统一多模态模型 Qwen-Image-RL（0.91）和 GPT Image 1（0.84）
效率优势显著：比 ReflectionFlow 减少 41.9% 样本（18.6 vs 32）和 88.6% VLM 调用（7.3 vs 64）
Two Object 和 Colors 类别达到 100% 和 98%，展示了需求验证对基础对齐的强保障
自适应特性：GenEval 平均 18.6 样本 vs DrawBench 平均 21.2 样本——更复杂的推理性提示自动获得更多计算
与 T2I-Copilot 的差距极大（0.94 vs 0.74），说明多动作变异 + 结构化验证的组合优势
Pareto 前沿持续改进：随样本预算增加，RAISE 持续提升，而基线方法很快进入平台期

亮点与洞察¶

需求分析驱动的自适应计算分配是核心创新——将提示理解从"整体评分"提升到"分项检查清单"，使反馈可操作化
多动作并发变异极大扩展了搜索空间——重采样探索布局、重写修正语义、编辑精炼细节，三个维度互补且并行执行
工具增强验证解决了 VLM 直接判图的幻觉问题——用检测/深度工具提供"硬证据"锚定推理
进化框架的适用性：该框架不绑定特定生成模型，FLUX 可替换为任何 T2I 模型，体现了通用性

局限与展望¶

每轮 8 个候选 × 最多 4 轮 = 32 张图的上限，对极复杂提示可能仍不够
依赖 VLM（Mistral-Small-3.2）的分析和验证能力，VLM 的推理错误会传播到后续轮次
当前不支持超过文本描述的约束（如草图引导、参考图风格等）
指令编辑依赖 Flux Kontext 的能力，对于大幅度修改（如完全改变构图）可能不够
计算开销仍然较高（平均 ~20 张图 + ~8 次 VLM），实时应用困难
未与最新 UMM（如 Qwen-Image-RL 的 0.91）做公平效率对比

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将 T2I 对齐建模为需求驱动的进化过程非常新颖，多智能体+多动作变异+结构化验证的系统设计完整
实验充分度: ⭐⭐⭐⭐⭐ GenEval+DrawBench 双基准、效率分析、Pareto前沿、完整消融
写作质量: ⭐⭐⭐⭐ 框架图清晰，公式化严谨，但符号较多
价值: ⭐⭐⭐⭐⭐ SOTA 结果+training-free+模型无关，对 T2I 推理时优化具有高实用价值