EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards¶

会议: CVPR 2026
arXiv: 2511.16672
代码: https://github.com/mbzuai-oryx/EvoLMM (开源)
领域: 多模态VLM / 自进化学习
关键词: 自进化LMM, 无监督自我改进, 连续自一致性奖励, Proposer-Solver, 视觉数学推理

一句话总结¶

提出 EvoLMM，一个纯无监督的自进化框架：从单一LMM分出Proposer（生成图像相关问题）和Solver（回答问题），通过连续自一致性奖励（替代离散多数投票）形成闭环训练信号，仅使用原始图像（无标注、无外部奖励模型），在8个多模态数学推理基准上获得约2-3%的一致性提升。

研究背景与动机¶

领域现状：大型多模态模型(LMM)在视觉推理上取得长足进步，但训练管线仍依赖(a)人工标注数据和(b)外部奖励模型/评估器，限制了自主性和可扩展性。
现有痛点：LLM领域已有自进化方法（SQLM、Proposer-Solver-Judge），但直接用到多模态领域存在问题：离散多数投票奖励在视觉推理早期产生大量零奖励更新，训练不稳定；现有多模态自改进方法（ViPER、Vision-Zero）仍依赖结构化中间信号。
核心矛盾：自进化需要有效的内部训练信号，但离散奖励在模型输出高度变化的早期阶段无法提供有意义的梯度反馈，导致优化停滞。
本文要解决什么？ 在完全无监督条件下，让LMM通过内部一致性自我改进多模态推理能力。
切入角度：用连续自一致性奖励替代离散多数投票，提供平滑的梯度信号；用熵引导的Proposer奖励实现自适应课程学习。
核心idea一句话：连续自一致性奖励使Proposer和Solver平滑共同进化，仅用原始图像就能持续提升视觉推理能力。

方法详解¶

整体框架¶

从预训练LMM（如Qwen2.5-VL-7B）分出两个角色（共享backbone，各自LoRA适配器）：Proposer从图像生成视觉接地的数学问题，Solver尝试回答。Solver对每个问题采样N=5个答案，根据答案之间的一致性计算连续奖励，用REINFORCE + KL正则化更新两个策略。整个循环仅使用原始图像，零人工标注、零外部模型。

关键设计¶

连续自一致性Solver奖励:
做什么：量化Solver在同一问题上多次回答的一致程度，转化为连续训练信号
核心思路：奖励等于答案在N次采样中经验概率的gamma次方，乘以长度惩罚项。gamma控制奖励软度（低值放大中等一致性的差异），长度惩罚鼓励简洁回答格式。
设计动机：离散多数投票只看"是否占多数"，2/5和3/5的部分一致完全得不到信号。连续奖励即使在模型不确定时也提供有意义的正梯度，避免早期训练停滞。实验证实：用离散奖励时早期Solver奖励几乎全为零且不稳定，连续奖励则平滑上升。
与之前方法的区别：SQLM用离散多数投票，在多模态场景产生大量零奖励更新导致学习停滞。
熵引导的连续Proposer奖励:
做什么：鼓励Proposer生成适度难度的问题——既不太简单也不太难
核心思路：用高斯带通函数，奖励在Solver答案熵H为中等值时最大。H接近0说明问题太简单（所有答案一致），H很大说明问题太难或太模糊。中心参数mu_H=0.90，带宽sigma_H=0.35。
设计动机：实现自适应课程学习。随着Solver进步，之前中等难度的问题变得太简单（低熵），Proposer必须生成更难但仍可解的问题才能获高奖励，自然形成渐进课程。Figure 6清楚地展示了这一涌现过程。
与之前方法的区别：无需外部Judge模块或人工设计的难度标准。
KL正则化的REINFORCE优化:
做什么：稳定策略梯度训练，防止策略偏离预训练模型太远
核心思路：用指数移动平均基线减少方差，动态KL系数自适应控制偏离度。Solver的KL约束较紧保持稳定，Proposer的KL约束较松允许探索。

训练细节¶

基座模型：Qwen2.5-VL-7B，backbone冻结，两个LoRA适配器
训练数据：约6K原始图像（无QA标注），来自ChartQA、AI2D、InfographicVQA、PlotQA、ChartX、Geometry3K
硬件：8x AMD MI250X GPU，bfloat16精度
训练步数：6000步，batch size 1，Proposer每5步更新一次
超参数：N=5采样，gamma=0.7，学习率1e-6

实验关键数据¶

主实验（8个多模态推理基准）¶

模型	ChartQA	MathVista	MathVision	MathVerse	AI2D	ScienceQA	MMMU
Qwen2.5-VL-7B Base	84.00	68.46	23.91	43.78	82.61	88.30	51.11
+ 离散奖励	84.62	68.88	22.52	42.10	82.18	87.98	50.84
+ 连续奖励(Ours)	86.70	70.52	24.81	44.88	83.41	89.50	52.01
提升	+2.7	+2.06	+0.9	+1.1	+0.8	+1.2	+0.9

消融实验（参数更新策略）¶

策略	ChartQA	MathVista	ScienceQA	说明
LoRA	86.70	70.52	89.50	最佳，保持预训练能力
QLoRA	85.32	68.92	88.73	量化噪声略有影响
Full Finetune	84.20	68.41	88.12	无外部监督下过拟合

跨模型泛化¶

基座模型	ChartQA提升	MathVista提升
Qwen2.5-VL-7B	84.00 -> 86.70	68.46 -> 70.52
InternVL3-8B	82.40 -> 84.97	65.20 -> 67.20

关键发现¶

连续 vs 离散奖励：离散奖励在MathVision(-1.39)和MathVerse(-1.68)上甚至负提升，连续奖励在所有8个基准上都正提升
LoRA >> Full Finetune：无外部监督的自进化场景下，参数高效微调优于全参数微调——全量微调容易过拟合内部信号
自适应课程自然涌现：训练中Proposer从生成简单/过难问题逐渐过渡到中等难度问题，熵分布从U型变为集中在中间的正态分布
跨模型有效：在Qwen2.5-VL-7B和InternVL3-8B上都有一致提升，说明方法通用

亮点与洞察¶

连续自一致性奖励是核心贡献：用经验答案概率的gamma次方作为连续信号，避免了离散投票"要么全得要么零"的问题，是将self-consistency从评估指标升级为可微训练信号的关键创新。这个insight可推广到任何需要内部一致性作为训练信号的场景。
熵带通Proposer奖励实现了零人工干预的课程学习：不需要任何外部难度标注，Solver的答案熵自然反映问题难度。这个机制可推广到任何需要自适应难度调节的自播放训练。
Figure 3和4的对比极具教育意义：清楚展示了离散vs连续奖励在训练动态上的根本差异，是理解连续奖励优势的关键可视化。
实验的干净性值得称赞：真正做到了"只有原始图像+预训练模型"的极简设置，没有任何隐藏的外部依赖。

局限性 / 可改进方向¶

提升幅度有限（约2-3%），与有监督方法相比差距明显
仅在数学/图表推理领域验证，对开放域视觉理解的泛化性未知
训练仅6K图像+6000步，scaling law未探索
Proposer生成的问题质量未经人工评估，可能存在无意义问题
连续奖励在语义等价但形式不同的答案上可能不鲁棒（如"3.14"和"pi"）

评分¶

新颖性: ⭐⭐⭐⭐ 连续自一致性奖励和熵带通Proposer奖励是技术亮点，但整体框架继承自SQLM
实验充分度: ⭐⭐⭐⭐⭐ 8个基准、4个backbone、3种微调策略的全面消融
写作质量: ⭐⭐⭐⭐⭐ 离散vs连续奖励的可视化对比（Figure 3、4）非常直观
价值: ⭐⭐⭐⭐ 对无监督多模态自进化方向有重要参考价值，但绝对提升幅度有限