Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play¶

会议: ICLR 2026
arXiv: 2509.25541
代码: GitHub
领域: 多模态视觉语言模型
关键词: VLM, Self-Play, Reinforcement Learning, Zero-Shot, Gamification, Self-Improvement

一句话总结¶

提出 Vision-Zero，首个无标注的游戏化自博弈框架，通过"谁是卧底"式视觉推理游戏实现 VLM 的可扩展自进化，结合 Iterative-SPO 训练算法在推理、图表理解和视觉中心任务上超越基于人工标注数据的 SOTA 方法。

研究背景与动机¶

当前 VLM 训练面临两个核心瓶颈：

数据稀缺：多模态标注成本极高（COCO Attributes: $60,480/200K 物体；Ego4D: >250K 标注小时）

知识天花板：模型能力受人类标注上限约束，无法发现超越人类经验的策略

自博弈（Self-Play）已在围棋（AlphaGo）、电竞（OpenAI Five）等领域证明可突破知识天花板。但将自博弈扩展到 VLM 面临挑战：需要同时考虑视觉和语言模态，设计满足技能对齐、难度可扩展、多样性和低数据需求的游戏环境。

Vision-Zero 的设计理念：灵感来自社交推理游戏"谁是卧底"，平民观察真实图像、卧底接收空白输入，通过交互式策略博弈让模型自主生成训练数据。

方法详解¶

游戏环境¶

角色设定：$n_c$ 个平民（观察真实图像 $I_c$）+ 1 个卧底（接收空白图像 $I_s$）

两阶段博弈：

线索阶段（Clue Stage）： - 每个玩家根据角色和观察提供语言线索 - 卧底必须仅从平民线索推断隐藏图像内容并伪装 - 平民需提供准确线索同时最小化信息泄露给卧底

决策阶段（Decision Stage）： - 平民分析所有线索+自己的图像，投票识别卧底 - 卧底不参与投票 - 支持 "n/a"（不确定）回答

无标注、领域无关的数据输入¶

训练仅需任意图像，实验验证三类数据： - CLEVR 数据：2000 张自动渲染图像（4-6 随机物体） - 图表数据：1000 张 ChartQA 图像 - 真实世界数据：1000 张 ImgEdit 图像

Iterative Self-Play Policy Optimization (Iterative-SPO)¶

线索阶段 - 自博弈优化：

零和奖励：

\[r_s^{clue} = -\beta(v_s - \bar{v}_c), \quad r_{c_j}^{clue} = \frac{\beta}{n_c}(v_s - \bar{v}_c) - \lambda(v_{c_j} - \bar{v}_c)\]

卧底与平民奖励之和为零，收到更多票数的获得更低奖励。

角色优势估计 (RAE)：缓解信息不对称导致的胜率失衡：

\[A_k^{clue} = r_k^{clue} - b_k, \quad b_s = \alpha b_s + (1-\alpha) r_s^{clue}\]

线索阶段目标函数：

\[\mathcal{L}^{clue}(\theta) = -\mathbb{E}\left[\frac{1}{n}\sum_{k \in \mathcal{K}} A_k^{clue} \log \pi_\theta^k(u_k | I_k, h)\right] + \tau_{clue} \cdot D_{KL}(\pi_\theta^k \| \pi_{ref}^k)\]

决策阶段 - RLVR 优化：

离散奖励：正确识别卧底 +1，回答 n/a -0.5，错误 -1

组归一化 GRPO 目标：

\[\mathcal{L}^{dec}(\theta) = -\mathbb{E}\left[\frac{1}{n_c}\sum_{i=1}^{n_c} A_{c_i}^{dec} \log q_\theta(\hat{s}_{c_i} | H)\right] + \tau_{dec} \cdot D_{KL}(q_\theta \| q_{ref})\]

交替训练：通过滞后阈值切换阶段： - 决策 → 线索：当 $\bar{acc}_t \geq \tau_{acc}^\uparrow$ 且 $\bar{na}_t \leq \tau_{na}^\downarrow$（卧底太容易被发现时，增加线索阶段难度） - 线索 → 决策：当 $1 - \bar{acc}_t \geq \tau_{err}^\uparrow$ 或 $\bar{na}_t \geq \tau_{na}^\uparrow$（卧底太难识别时，加强决策训练）

优势分析¶

领域无关：利用图像差异进行博弈，不依赖特定图像类型
同时增强多种能力：推理、空间理解、视觉理解、OCR
成本极低：无需人工标注，用 ChatGPT/NanoBanana 快速生成数据

实验¶

推理和数学任务¶

方法	MathVista	MathVision	WeMath	MathVerse	LogicVista	Avg
Qwen2.5-VL-7B	68.2	25.4	36.1	49.0	47.2	41.1
MM-Eureka-7B	73.0	26.9	36.2	50.3	42.9	42.9
ViGaL-S+R	71.9	27.5	36.9	52.4	46.5	43.0
VZ (CLEVR)	72.2	28.4	39.2	53.2	49.8	44.3
VZ (Real)	73.1	28.5	40.1	52.1	50.8	44.5

Vision-Zero 在仅使用无标注数据的情况下，超越了所有使用人工标注数据的基线。

图表理解和视觉中心任务¶

Vision-Zero (Chart) 在 ChartXiV、FunctionQA 等图表任务上显著提升，在 MMVP、BLINK 等视觉中心任务上也有增益。

训练动态¶

胜率（平民 vs 卧底）在训练中持续上升
线索长度（token 数）随训练增长，模型学会更详细地描述和推理
Iterative-SPO 有效避免了纯自博弈的过早收敛

消融实验¶

消融	MathVista	MathVision
仅线索阶段	70.8	27.1
仅决策阶段	71.5	27.6
Iterative-SPO	73.1	28.5

交替训练的效果显著优于单阶段训练。

与 Gobang 的对比¶

在 MathVision 上：Vision-Zero 提升 +3%（100轮），Gobang 无提升，证明视觉推理游戏的泛化能力。

亮点¶

零人类参与：完全不需要人工标注或人类反馈
领域无关输入：CLEVR、图表、自然图像均有效
Iterative-SPO 理论优雅：交替自博弈+RLVR避免局部均衡
超越标注基线：无标注方法超越昂贵人工标注训练的 SOTA
多能力同时提升：推理、图表理解、视觉中心任务全面增益

局限性¶

游戏中固定角色数（$n_c + 1$），未探索更复杂的多角色设定
"谁是卧底"游戏的策略空间是否充分覆盖了所有视觉推理能力存疑
卧底使用空白图像而非相似图像，与原版"谁是卧底"有偏差
Iterative-SPO 的阈值超参数需手动设定
在部分视觉中心任务上（如 RealWorldQA）提升有限

评分¶

创新性: ⭐⭐⭐⭐⭐ — 首个 VLM 无标注游戏化自博弈框架
实用性: ⭐⭐⭐⭐⭐ — 极低成本、领域无关、即插即用
清晰度: ⭐⭐⭐⭐ — 框架清晰但公式较多
意义: ⭐⭐⭐⭐⭐ — 开辟了 VLM 自进化的新范式