跳转至

Adapting Vision-Language Models for Evaluating World Models

会议: NeurIPS 2025
arXiv: 2506.17967
代码: 无
领域: VLM / 世界模型评估 / 视频理解
关键词: world model evaluation, VLM adaptation, PaliGemma, rollout assessment, action recognition

一句话总结

提出UNIVERSE框架,通过仅微调PaliGemma 2的投影头(0.07%参数)和优化数据混合策略,实现对游戏世界模型rollout的高效视觉语言评估,在动作/角色识别任务上以极低成本接近完整微调的性能。

背景与动机

世界模型(world models)能够生成模拟环境的视频rollout,但如何评估这些rollout的质量(如动作/角色是否正确呈现)是一个开放问题。传统的人工评估昂贵且不可扩展。VLM可以做视频理解,但直接用在世界模型rollout评估上存在领域差距——需要适配。问题是如何以最低成本适配VLM使其能评估rollout。

核心问题

如何以最小的参数调整和训练成本,将VLM(如PaliGemma 2)适配为世界模型rollout的自动评估器?

方法详解

整体框架

UNIVERSE = 部分微调 + 高效帧采样 + 数据混合优化: 1. 仅微调PaliGemma 2 3B的投影头(0.07%参数) 2. 从14帧rollout均匀采样k=8帧作为输入 3. 三阶段层次化网格搜索优化数据混合比例

关键设计

  1. 极轻量微调:只调投影头,冻结视觉编码器和LLM主体。这不仅节省计算,还保留了预训练学到的视觉-语言对齐能力。
  2. 帧采样策略:uniform-n(均匀采样)优于first-n(取前n帧),因为世界模型rollout中的信息在时间上是分散的。8帧是token效率和时间覆盖的最佳平衡点。
  3. 层次化数据混合搜索
  4. 第1层:AR(动作识别)/CR(角色识别)任务比例
  5. 第2层:开放式问题监督比例
  6. 第3层:二选一/多选题格式平衡
  7. 最终比例:α_AR=0.8, β_OE=0.8, β_binary=0.15, β_MC=0.05

实验关键数据

方法 参数量调整 AR (EM) CR (EM)
Zero-shot PaliGemma 2 0% 较低 较低
UNIVERSE (投影头) 0.07% 近最优 第3名
完整微调 ~11% 最优 最优
LoRA (r=8) ~1% 近最优 近最优
  • uniform-8帧:AR 95.05 EM vs first-8的93.85 EM
  • 1-epoch训练即可匹配4-epoch基线
  • 数据集:Ninja Theory合作的游戏环境rollout

消融实验要点

  • 微调策略对比:zero-shot < 单组件 < 双组件 < 完整 < 投影头(投影头有竞争力)
  • 帧数:8帧最优平衡
  • 数据混合最优比:AR权重要远高于CR
  • LoRA r=8即可达到近最优

亮点

  • 极端参数效率:仅0.07%参数微调就能获得有竞争力的性能
  • 层次化数据混合搜索:系统化的方法论,避免了盲目调参
  • 实用导向:直接解决游戏/模拟器中世界模型评估的实际需求
  • 发现:时间均匀采样显著优于顺序采样——对rollout评估有实践指导意义

局限性 / 可改进方向

  • 仅在模拟环境中验证,泛化到开放世界场景不确定
  • 主结果仅基于PaliGemma 2 3B,其他架构待验证
  • 角色识别(CR)性能落后于完整微调方法

与相关工作的对比

  • vs VideoLLaMA3:UNIVERSE用更少参数调整获得可比性能
  • vs 完整微调:AR性能接近,CR有差距
  • vs Zero-shot VLM:显著提升,特别在AR任务上

评分

  • 新颖性: ⭐⭐⭐ 方法偏工程优化,但问题定义(世界模型评估)有新意
  • 实验充分度: ⭐⭐⭐⭐ 多种微调策略、帧策略、数据混合的系统消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验设计系统
  • 价值: ⭐⭐⭐ 应用场景偏窄(游戏世界模型),但方法论可推广