EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards¶
会议: CVPR2026 arXiv: 2511.16672 代码: mbzuai-oryx/EvoLMM 领域: 多模态VLM 关键词: 自演化学习, 大型多模态模型, 连续奖励, Proposer-Solver, 无监督强化学习, 自一致性
一句话总结¶
提出 EvoLMM,一个完全无监督的自演化框架:从单一骨干 LMM 中分出 Proposer(生成视觉问题)和 Solver(多次回答),通过连续自一致性奖励取代离散多数投票,让模型仅用原始图片即可自我提升多模态数学推理能力(ChartQA +2.7%, MathVista +2.1%)。
背景与动机¶
- 标注依赖瓶颈:现有 LMM 训练高度依赖人工标注数据(QA 对、元数据),限制了可扩展性和领域泛化能力。
- 外部奖励模型依赖:许多方法需要额外的 reward model 或人类评估来提供学习信号,增加系统复杂度。
- 离散奖励不稳定:先前自进化 LLM 工作(如 SQLM)使用多数投票离散奖励,在多模态场景中由于 Solver 输出早期高度不一致,经常产生零奖励,导致优化不稳定。
- 语言域方法难迁移:现有自演化研究(Multi-Agent Evolve 等)局限于纯语言领域,多模态场景需要视觉接地,增加了自评估难度。
- 半监督残留:已有的多模态自改进方法(Vision-SR1、ViPER、Vision-Zero)仍依赖重建目标、SFT 冷启动或外部生成模型(GPT-4o/Gemini)产生的隐式监督。
- 核心问题:能否让 LMM 在完全无人工标注和外部奖励的条件下,自主提升推理能力?
方法详解¶
整体框架¶
EvoLMM 从同一预训练骨干模型中实例化两个协作角色:
- Proposer \(\pi_\phi(q|x)\):给定原始图像 \(x\),生成视觉接地的数学问题 \(q\)
- Solver \(\pi_\theta(y|x,q)\):对问题 \(q\) 采样 \(N=5\) 个独立回答 \(y_{1:N}\)
两者通过内部一致性信号形成闭环训练,不使用任何 ground-truth 标签。
连续自一致性 Solver 奖励¶
\[r_i^{\text{sol}} = \big(p(y_i|x,q)\big)^\gamma \cdot \Big(1 - \lambda_{\text{len}} \cdot \max\{0, (w_i - \tau)/\tau\}\Big)\]
- \(p(y_i|x,q)\):经验答案分布中 \(y_i\) 的一致性得分
- \(\gamma=0.7\):奖励柔化指数,放大中等置信度差异
- 长度惩罚项:鼓励简洁回答(目标长度 \(\tau=6\) 词)
- 关键优势:相比离散多数投票,即使部分一致(如 5 个中 2 个一致)也能提供非零梯度
熵引导连续 Proposer 奖励¶
\[r^{\text{prop}} = \exp\!\left(-\frac{(H(x,q) - \mu_H)^2}{2\sigma_H^2}\right)\]
- \(H(x,q)\):Solver 答案分布的熵,衡量问题难度
- 带通滤波器设计:\(\mu_H=0.90\),\(\sigma_H=0.35\)
- 当 \(H \approx 0\) 时(问题过简单)奖励低;\(H\) 过大时(问题不可解)奖励也低
- 自适应课程学习:随着 Solver 变强,Proposer 需生成稍难但仍可解的问题
训练优化¶
- 策略梯度:REINFORCE + EMA 基线 \(b_A\) 方差缩减
- KL 正则化:token 级 KL 散度约束,防止偏离预训练分布过远
- 动态 KL 控制器:\(\beta_A \leftarrow \text{clip}(\beta_A \cdot \exp(\eta \cdot (\overline{KL}_A - \tau_A)/\tau_A), \beta_{\min}, \beta_{\max})\)
- 更新频率:Solver 每步更新,Proposer 每 5 步更新一次
- 参数高效:双 LoRA 适配器,骨干冻结
- 训练配置:6000 步,batch size 1,AdamW,lr=1e-6,8× AMD MI250X GPU
实验关键数据¶
主实验:连续 vs 离散奖励(Qwen2.5-VL-7B)¶
| 方法 | ChartQA | MathVista | MathVision | MathVerse | ScienceQA | AI2D | MMMU |
|---|---|---|---|---|---|---|---|
| Baseline | 84.00 | 68.46 | 23.91 | 43.78 | 88.30 | 82.61 | 51.11 |
| + 离散奖励 | 84.62 | 68.88 | 22.52 | 42.10 | 87.98 | 82.18 | 50.84 |
| + 连续奖励 (Ours) | 86.70 | 70.52 | 24.81 | 44.88 | 89.50 | 83.41 | 52.01 |
| Δ | +2.7% | +2.06% | +0.9% | +1.1% | +1.2% | +0.8% | +0.9% |
离散奖励在 MathVision/MathVerse 上甚至出现退化,说明多数投票在多模态推理中过于脆弱。
跨骨干泛化(Table 3)¶
| 模型 | ChartQA Δ | MathVista Δ | ScienceQA Δ |
|---|---|---|---|
| Qwen2.5-VL-7B | +2.70 | +2.06 | +1.20 |
| InternVL3-8B | +2.57 | +2.00 | +0.36 |
| Gemma3-12B-It | +2.97 | +2.00 | +1.08 |
| Llama-3.2-11B | +3.00 | +2.00 | +1.20 |
所有骨干均获 +1~3% 提升,证明方法的架构无关性。
消融:微调策略(Table 2)¶
| 策略 | ChartQA | MathVista | MathVision |
|---|---|---|---|
| LoRA (默认) | 86.70 | 70.52 | 24.81 |
| QLoRA | 85.32 | 68.92 | 23.97 |
| Full Fine-tune | 84.20 | 68.41 | 23.37 |
- Full Fine-tune 反而退化,因为无监督设定下全参更新易过拟合且与 KL 正则冲突
- QLoRA 因量化噪声降低 Solver 一致性
模型规模扩展(Table 4)¶
Qwen2.5-VL-72B 上 ChartQA 88.20→91.04(+2.84),MathVista 73.93→76.44(+2.51),更大模型获更大绝对增益。
亮点¶
- 完全无监督:仅用约 6k 张原始图片(无任何 QA 对或元数据),即可稳定提升推理能力
- 连续奖励设计精巧:Solver 侧基于一致性概率的软奖励 + Proposer 侧基于熵的带通奖励,避免了离散奖励的梯度消失
- 涌现式课程学习:Proposer 自动从简单问题过渡到中等难度问题,无需人工设计课程
- 方法轻量可复现:双 LoRA + 冻结骨干,6000 步即可完成训练
- 泛化性强:在 4 种不同架构(Qwen、InternVL、Gemma、Llama)和 2 种规模(7B/72B)上均有效
局限性 / 可改进方向¶
- 提升幅度有限:最大约 +3%,对于已接近饱和的 benchmark(如 ScienceQA 88→89%)边际效益较小
- 仅验证数学推理:未扩展到更广泛任务(OCR、VQA、视觉对话等),通用性存疑
- 训练数据量小:仅用 ~6k 图片,未探索更大规模数据是否能带来更大收益
- 单轮问答:Proposer 生成单个问题,未考虑多轮交互或链式提问
- Solver 采样数固定:\(N=5\) 作为超参,未充分探索不同 \(N\) 的影响
- 无与 RLHF/RLVR 的直接对比:缺少与有监督强化学习方法的公平比较
与相关工作的对比¶
| 方法 | 监督类型 | 奖励形式 | 外部模型 | 多模态 |
|---|---|---|---|---|
| SQLM [5] | 无标注 | 离散多数投票 | 无 | ❌ 仅文本 |
| Multi-Agent Evolve [6] | 无标注 | Judge 角色 | 隐式 Judge | ❌ 仅文本 |
| Vision-SR1 [18] | SFT 冷启动 | 感知+推理分解 | 无 | ✅ |
| ViPER [47] | 重建目标 | 图像/实例重建 | OmniGen2/Qwen-Image | ✅ |
| Vision-Zero [36] | 合成图对 | 社交推理游戏 | GPT-4o/Gemini | ✅ |
| EvoLMM (本文) | 完全无监督 | 连续自一致性 | 无 | ✅ |
EvoLMM 是对比中唯一不依赖任何形式外部监督或模型的多模态自演化方案。
评分¶
- 新颖性: ⭐⭐⭐⭐ (连续奖励替代离散奖励、熵引导带通 Proposer 奖励设计巧妙)
- 实验充分度: ⭐⭐⭐⭐ (跨骨干、跨规模、多消融,但缺少与有监督 RL 的比较)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,图表丰富,公式推导完整)
- 价值: ⭐⭐⭐⭐ (为无监督多模态自演化提供了简洁有效的 baseline,但实际提升幅度不大)