Adapting Vision-Language Models for Evaluating World Models¶

会议: NeurIPS 2025
arXiv: 2506.17967
代码: 无
领域: VLM / 世界模型评估 / 视频理解
关键词: world model evaluation, VLM adaptation, PaliGemma, rollout assessment, action recognition

一句话总结¶

提出UNIVERSE框架，通过仅微调PaliGemma 2的投影头（0.07%参数）和优化数据混合策略，实现对游戏世界模型rollout的高效视觉语言评估，在动作/角色识别任务上以极低成本接近完整微调的性能。

背景与动机¶

世界模型（world models）能够生成模拟环境的视频rollout，但如何评估这些rollout的质量（如动作/角色是否正确呈现）是一个开放问题。传统的人工评估昂贵且不可扩展。VLM可以做视频理解，但直接用在世界模型rollout评估上存在领域差距——需要适配。问题是如何以最低成本适配VLM使其能评估rollout。

核心问题¶

如何以最小的参数调整和训练成本，将VLM（如PaliGemma 2）适配为世界模型rollout的自动评估器？

方法详解¶

整体框架¶

UNIVERSE = 部分微调 + 高效帧采样 + 数据混合优化： 1. 仅微调PaliGemma 2 3B的投影头（0.07%参数） 2. 从14帧rollout均匀采样k=8帧作为输入 3. 三阶段层次化网格搜索优化数据混合比例

关键设计¶

极轻量微调：只调投影头，冻结视觉编码器和LLM主体。这不仅节省计算，还保留了预训练学到的视觉-语言对齐能力。
帧采样策略：uniform-n（均匀采样）优于first-n（取前n帧），因为世界模型rollout中的信息在时间上是分散的。8帧是token效率和时间覆盖的最佳平衡点。
层次化数据混合搜索：
第1层：AR(动作识别)/CR(角色识别)任务比例
第2层：开放式问题监督比例
第3层：二选一/多选题格式平衡
最终比例：α_AR=0.8, β_OE=0.8, β_binary=0.15, β_MC=0.05

实验关键数据¶

方法	参数量调整	AR (EM)	CR (EM)
Zero-shot PaliGemma 2	0%	较低	较低
UNIVERSE (投影头)	0.07%	近最优	第3名
完整微调	~11%	最优	最优
LoRA (r=8)	~1%	近最优	近最优

uniform-8帧：AR 95.05 EM vs first-8的93.85 EM
1-epoch训练即可匹配4-epoch基线
数据集：Ninja Theory合作的游戏环境rollout

消融实验要点¶

微调策略对比：zero-shot < 单组件 < 双组件 < 完整 < 投影头（投影头有竞争力）
帧数：8帧最优平衡
数据混合最优比：AR权重要远高于CR
LoRA r=8即可达到近最优

亮点¶

极端参数效率：仅0.07%参数微调就能获得有竞争力的性能
层次化数据混合搜索：系统化的方法论，避免了盲目调参
实用导向：直接解决游戏/模拟器中世界模型评估的实际需求
发现：时间均匀采样显著优于顺序采样——对rollout评估有实践指导意义

局限性 / 可改进方向¶

仅在模拟环境中验证，泛化到开放世界场景不确定
主结果仅基于PaliGemma 2 3B，其他架构待验证
角色识别(CR)性能落后于完整微调方法

与相关工作的对比¶

vs VideoLLaMA3：UNIVERSE用更少参数调整获得可比性能
vs 完整微调：AR性能接近，CR有差距
vs Zero-shot VLM：显著提升，特别在AR任务上

评分¶

新颖性: ⭐⭐⭐ 方法偏工程优化，但问题定义（世界模型评估）有新意
实验充分度: ⭐⭐⭐⭐ 多种微调策略、帧策略、数据混合的系统消融
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设计系统
价值: ⭐⭐⭐ 应用场景偏窄（游戏世界模型），但方法论可推广