EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards¶

会议: CVPR2026 arXiv: 2511.16672 代码: mbzuai-oryx/EvoLMM 领域: 多模态VLM 关键词: 自演化学习, 大型多模态模型, 连续奖励, Proposer-Solver, 无监督强化学习, 自一致性

一句话总结¶

提出 EvoLMM，一个完全无监督的自演化框架：从单一骨干 LMM 中分出 Proposer（生成视觉问题）和 Solver（多次回答），通过连续自一致性奖励取代离散多数投票，让模型仅用原始图片即可自我提升多模态数学推理能力（ChartQA +2.7%, MathVista +2.1%）。

标注依赖瓶颈：现有 LMM 训练高度依赖人工标注数据（QA 对、元数据），限制了可扩展性和领域泛化能力。
外部奖励模型依赖：许多方法需要额外的 reward model 或人类评估来提供学习信号，增加系统复杂度。
离散奖励不稳定：先前自进化 LLM 工作（如 SQLM）使用多数投票离散奖励，在多模态场景中由于 Solver 输出早期高度不一致，经常产生零奖励，导致优化不稳定。
语言域方法难迁移：现有自演化研究（Multi-Agent Evolve 等）局限于纯语言领域，多模态场景需要视觉接地，增加了自评估难度。
半监督残留：已有的多模态自改进方法（Vision-SR1、ViPER、Vision-Zero）仍依赖重建目标、SFT 冷启动或外部生成模型（GPT-4o/Gemini）产生的隐式监督。
核心问题：能否让 LMM 在完全无人工标注和外部奖励的条件下，自主提升推理能力？

EvoLMM 从同一预训练骨干模型中实例化两个协作角色：

两者通过内部一致性信号形成闭环训练，不使用任何 ground-truth 标签。

\[r_i^{\text{sol}} = \big(p(y_i|x,q)\big)^\gamma \cdot \Big(1 - \lambda_{\text{len}} \cdot \max\{0, (w_i - \tau)/\tau\}\Big)\]

\[r^{\text{prop}} = \exp\!\left(-\frac{(H(x,q) - \mu_H)^2}{2\sigma_H^2}\right)\]

策略梯度：REINFORCE + EMA 基线 \(b_A\) 方差缩减
KL 正则化：token 级 KL 散度约束，防止偏离预训练分布过远
动态 KL 控制器：\(\beta_A \leftarrow \text{clip}(\beta_A \cdot \exp(\eta \cdot (\overline{KL}_A - \tau_A)/\tau_A), \beta_{\min}, \beta_{\max})\)
更新频率：Solver 每步更新，Proposer 每 5 步更新一次
参数高效：双 LoRA 适配器，骨干冻结
训练配置：6000 步，batch size 1，AdamW，lr=1e-6，8× AMD MI250X GPU

方法	ChartQA	MathVista	MathVision	MathVerse	ScienceQA	AI2D	MMMU
Baseline	84.00	68.46	23.91	43.78	88.30	82.61	51.11
+ 离散奖励	84.62	68.88	22.52	42.10	87.98	82.18	50.84
+ 连续奖励 (Ours)	86.70	70.52	24.81	44.88	89.50	83.41	52.01
Δ	+2.7%	+2.06%	+0.9%	+1.1%	+1.2%	+0.8%	+0.9%

离散奖励在 MathVision/MathVerse 上甚至出现退化，说明多数投票在多模态推理中过于脆弱。

模型	ChartQA Δ	MathVista Δ	ScienceQA Δ
Qwen2.5-VL-7B	+2.70	+2.06	+1.20
InternVL3-8B	+2.57	+2.00	+0.36
Gemma3-12B-It	+2.97	+2.00	+1.08
Llama-3.2-11B	+3.00	+2.00	+1.20

所有骨干均获 +1~3% 提升，证明方法的架构无关性。

策略	ChartQA	MathVista	MathVision
LoRA (默认)	86.70	70.52	24.81
QLoRA	85.32	68.92	23.97
Full Fine-tune	84.20	68.41	23.37

Qwen2.5-VL-72B 上 ChartQA 88.20→91.04（+2.84），MathVista 73.93→76.44（+2.51），更大模型获更大绝对增益。

EvoLMM 是对比中唯一不依赖任何形式外部监督或模型的多模态自演化方案。