Tiny Inference-Time Scaling with Latent Verifiers¶

会议: CVPR 2026
arXiv: 2603.22492
代码: https://aimagelab.github.io/VHS
领域: 扩散模型 / 图像生成 / LLM效率
关键词: 推理时扩展, 隐空间验证器, 单步生成, DiT, MLLM

一句话总结¶

提出VHS（Verifier on Hidden States）——一种直接在DiT生成器中间层隐状态上工作的验证器，跳过解码-重编码开销，在单步图像生成的推理时扩展（inference-time scaling）场景下将联合生成-验证时间减少63.3%、FLOPs降低51%，同时在GenEval上相同时间预算下提升2.7%的性能。

研究背景与动机¶

领域现状：推理时扩展（inference-time scaling）已成为提升生成模型质量的有效方式——通过生成多个候选样本并用验证器（verifier）评分选出最佳结果。常见的Best-of-N策略在文本到图像生成中广泛使用。
现有痛点：当前验证器通常基于MLLM（多模态大语言模型），流程是：生成器在latent空间生成→解码到像素空间→MLLM的视觉编码器（如CLIP）重新编码→LLM评分。存在两个问题：(a) 解码-重编码是冗余操作——latent空间已隐式包含语义信息，却被解码后又重新编码；(b) 文献中通常只计算生成步数（function evaluations）而忽视验证器开销，但对于单步生成器（如SANA-Sprint），解码器和验证器的开销与生成本身可比拟。
核心矛盾：实际部署场景（如商业图像生成服务）通常只返回2-4张候选图片，是"tiny budget"设定。在如此紧的预算下，MLLM验证器的开销不可忽视。扩散模型在压缩latent空间操作以减少计算，但验证时又退回到像素空间，形成了计算上的矛盾。
本文目标：设计一种更高效的验证器，能直接在生成器的latent空间评估生成质量，消除解码-重编码开销。
切入角度：DiT生成器的中间隐层已经编码了丰富的语义信息（可以被LLM理解），不需要先解码再编码。直接用中间层特征替代CLIP视觉编码器的输出作为LLM的视觉输入。
核心 idea：验证器直接消费DiT生成器的中间隐状态作为视觉输入，跳过后续DiT层、自编码器解码和CLIP重编码，实现隐空间内的高效验证。

方法详解¶

整体框架¶

标准流程：\(z_T \rightarrow\) DiT全部L层 \(\rightarrow z_0 \rightarrow\) 自编码器解码 \(\rightarrow x_0 \rightarrow\) CLIP编码 \(\rightarrow\) LLM评分。VHS流程：\(z_T \rightarrow\) DiT前 \(\ell^*\) 层 \(\rightarrow h_{\ell^*} \rightarrow\) MLP连接器 \(\rightarrow\) LLM评分。跳过了后续DiT层、自编码器解码和CLIP重编码三个步骤。

关键设计¶

隐状态验证器（VHS）:
- 功能：直接从DiT中间层特征进行语义评估，替代传统的解码-重编码-MLLM pipeline
- 核心思路：标准MLLM验证器的评分为 \(s = \text{LLM}(\mathcal{C}(\mathcal{V}(\mathcal{D}(z_0))), p)\)，其中 \(\mathcal{D}\) 是解码器，\(\mathcal{V}\) 是视觉编码器，\(\mathcal{C}\) 是连接器。VHS将其简化为 \(s = \text{LLM}(\mathcal{C}(h_{\ell^*}), p)\)，直接取DiT第 \(\ell^*\) 层的隐状态 \(h_{\ell^*}\) 通过MLP连接器送入LLM。这不仅跳过了 \(\mathcal{D}\) 和 \(\mathcal{V}\)，还可以截断生成器在第 \(\ell^*\) 层之后的 \(L - (\ell^* + 1)\) 层，进一步减少计算。
- 设计动机：生成式latent空间已经隐含了图像的语义信息（这是扩散模型能生成图像的前提），额外的编码步骤是冗余的。论文通过消融验证了AE latent特征虽然感知上丰富但语义较弱（重建预训练目标导致），而DiT中间层特征受生成prompt条件化，语义对齐更强。
DiT层的选择（Layer Selection）:
- 功能：找到延迟-性能的最优平衡点
- 核心思路：在20层DiT中测试了 \(h_1, h_5, h_7, h_9, h_{19}\) 五个层。发现极浅层（\(h_1\)）靠近噪声输入，表示不稳定；极深层（\(h_{19}\)）接近AE重建空间，主导感知重建而非语义；中间层 \(h_7\)（约35%深度）最优——GenEval overall比 \(h_5\) 高2.8%，比 \(h_9\) 高2.2%，同时延迟更低（因为可以截断后续13层）。
- 设计动机：这形成了一个非单调的trade-off：太浅语义弱，太深偏向感知重建（类似AE特征），中间层恰好保留了足够的语义信息且计算成本最低。
训练流程（两阶段）:
- 功能：将生成器的隐状态空间与LLM的输入空间对齐，并训练为验证器
- 核心思路：对齐阶段：类似LLaVA的第一阶段，用图像-文本对训练MLP连接器。由于输入是生成模型的latent而非真实图像，先用生成器从caption生成图像并记录 \(h_{\ell^*}\)，再用Gemma-3-4B对生成图像重标注描述（避免生成偏差）。仅训练连接器。验证器微调阶段：从Reflect-DiT的prompt生成20张候选图/prompt共118K样本，用GenEval自动评估得到二值标签（Yes/No）。由于正样本过多（~63%），使用加权交叉熵重新平衡类别权重。训练连接器+LLM全部参数。推理时用LLM输出"yes"/"no"的token概率作为连续分数。
- 设计动机：标准交叉熵因类别不平衡偏向正类，导致验证器无法有效拒绝低质量生成。加权交叉熵和focal loss都能缓解此问题（focal loss +3.7%，加权XE +4.2%）。

损失函数 / 训练策略¶

对齐阶段用标准LLaVA训练方式，仅训连接器。验证器微调阶段用加权交叉熵（weighted cross-entropy loss），训练连接器和完整LLM。LLM使用Qwen2.5-0.5B，生成器为SANA-Sprint（单步）。

实验关键数据¶

主实验¶

SANA-Sprint + Qwen2.5-0.5B在GenEval上（匹配时间预算内的Best-of-N）：

时间预算	验证器	Best-of-N	GenEval Overall
550ms	MLLM w/ CLIP	Bo2	75.4%
550ms	VHS	Bo4	78.1% (+2.7%)
1100ms	MLLM w/ CLIP	Bo4	78.8%
1100ms	VHS	Bo9	80.5% (+1.7%)
1650ms	MLLM w/ CLIP	Bo6	80.4%
1650ms	VHS	Bo15	80.9% (+0.5%)

延迟与资源对比（Bo1基准）：

验证器	时间	节省	FLOPs节省	VRAM节省
MLLM w/ CLIP	277ms	-	-	-
MLLM w/ AE	138ms	50.2%	51.0%	14.5%
VHS on \(h_7\)	102ms	63.3%	62.9%	14.5%

消融实验¶

配置	GenEval Overall (1100ms)	说明
VHS \(h_7\) + Weighted XE	80.5%	最优配置
VHS \(h_1\) + Weighted XE	71.3%	太浅，语义不足
VHS \(h_{19}\) + Weighted XE	76.5%	太深，偏向感知重建
VHS \(h_7\) + XE	76.3%	标准XE，类别不平衡
VHS \(h_7\) + Focal	80.0%	Focal loss也有效
MLLM w/ AE + Weighted XE	74.7%	AE latent语义弱
VHS \(h_7\) + Qwen2-1.5B	78.4%	更大LLM无帮助，瓶颈在视觉而非推理

关键发现¶

VHS的核心优势在"tiny budget"场景：相同时间MLLM w/ CLIP评2个，VHS能评4个，翻倍的候选池带来显著质量提升
层选择非单调：太浅语义弱，太深偏重建，\(h_7\)（~35%深度）最优。AE latent效果差证实了"感知特征≠语义特征"
增大LLM（0.5B→1.5B）几乎无帮助，瓶颈在视觉表示质量而非语言推理——这是一个重要洞察
加权XE > Focal loss > XE，类别不平衡处理对验证器训练至关重要
在PixArt-α-DMD上也有效（48%加速），证明泛化性

亮点与洞察¶

"少即是多"的验证器设计：移除视觉编码器反而更好——因为DiT latent已经是条件化的语义表示，比CLIP的通用视觉特征更适合判断生成质量。这挑战了"MLLM需要强视觉编码器"的常识
延迟→候选数的转化：VHS的真正价值不只是"更快"，而是在同样时间内能评估更多候选，将"效率优势"转化为"质量优势"
生成器中间层特征的语义分析：DiT不同深度层的特征从噪声→语义→感知的渐变规律，对理解生成模型的内部表示有理论价值

局限与展望¶

仅适用于单步生成器——多步生成器的latent在每步不同，VHS需要适配
仅在GenEval上评估，缺少更主流的benchmark（如T2I-CompBench、DrawBench）
依赖特定的DiT架构——对于非DiT的生成器（如U-Net扩散模型）需要重新设计
当前用fixed layer \(\ell^*\)，未探索自适应层选择的可能性
VHS本身需要训练（对齐+微调），不是完全training-free的方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ 直接在隐空间做验证的想法简洁有力，DiT层特征的语义分析有洞察
实验充分度: ⭐⭐⭐⭐ 延迟/性能/消融分析全面，但benchmark单一（仅GenEval）
写作质量: ⭐⭐⭐⭐⭐ 问题动机阐述精当，效率分析细致
价值: ⭐⭐⭐⭐ 对实际部署图像生成服务有直接价值，隐空间验证的思路可推广到视频生成