ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding¶
会议: ICLR 2026
arXiv: 2602.23306
代码: https://1ranguan.github.io/thinkomni
领域: 多模态VLM
关键词: 全模态推理, 引导解码, LRM, 无训练, 对比缩放
一句话总结¶
提出 ThinkOmni 无训练框架,利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM),通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号,MathVista 达 70.2%、MMAU 达 75.5%,匹配或超越 RFT 方法。
研究背景与动机¶
-
领域现状: 大推理模型(LRM)如 DeepSeek-R1、o1 在文本推理任务上表现卓越,但仅处理文本输入。全模态 LLM(OLLM)如 Qwen2.5-Omni 虽能处理文本+音频+图像+视频,但在复杂推理任务上仍有短板。
-
现有痛点: 提升 OLLM 推理能力的现有路径面临多重挑战:
- 数据稀缺: SFT 需要大量高质量多模态推理样本,获取成本高
- 训练昂贵: RFT(强化微调)需要大量 GPU 资源(7B 模型需 8×40G,32B 需 16×80G)
- 任务特化: 现有增强方案(如 Omni-R1、HumanOmniV2)局限于特定下游任务,缺乏泛化性
-
模态局限: 多数工作仅关注单一模态(图像或音频),未真正实现跨模态推理
-
核心矛盾: LRM 有强推理能力但无法处理非文本输入;OLLM 能处理多模态输入但推理能力不足。两者优势互补,但如何在推理时无训练地融合是关键难题。
-
本文要解决什么? 不依赖额外训练数据或微调,将 LRM 的文本推理能力"提升"到全模态场景。
-
切入角度: 从推理时引导解码(guidance decoding)切入,将 LRM 作为 OLLM 的解码时"顾问",在 logits 层面融合两者信号。
-
核心idea一句话: 用 LRM 产生的纯文本推理信号在 logits 层引导 OLLM 的全模态解码,并通过逐步对比缩放自适应调节感知-推理平衡。
方法详解¶
整体框架¶
ThinkOmni 框架由两个核心组件构成:(1) LRM-as-a-Guide: 将 OLLM 和 LRM 的输出 logits 通过对比方式融合,形成增强的解码分布;(2) Stepwise Contrastive Scaling: 在每个解码步自动计算感知贡献和推理贡献的强度,动态调节融合权重,无需手动调参。
关键设计¶
- LRM-as-a-Guide:
- 做什么: 在每个解码步,分别从 OLLM(全模态输入)、OLLM(仅文本输入)、LRM(仅文本输入)获取三组 logits,构建对比信号
- 核心思路: 基础 logits z^base = M_O(x<t, O),负 logits z⁻ = M_O(x<t)(去除多模态输入),正 logits z⁺ = M_R(x<t)。融合公式:P̂ = Softmax[z^base + α·(z⁺ - z⁻)]。(z⁺ - z⁻) 对比项编码了 LRM 相对于 OLLM 纯文本模式的推理偏好增量
-
设计动机: 类似差分放大器,z⁺-z⁻ 放大了 LRM 的推理信号同时抑制了两个模型共有的语言噪声。LRM 虽无法感知多模态内容,但随着解码推进,已生成的文本 context 中隐含了多模态信息
-
Stepwise Contrastive Scaling:
- 做什么: 在每个解码步动态计算推理权重 αᵣ 和感知权重 αₚ,替代固定的 α
- 核心思路: 用 Jensen-Shannon 散度量化三个分布间的差异:D_R = JS(P_R ‖ P) 反映推理贡献,D_P = JS(P_O ‖ P) 反映感知贡献。αᵣ + αₚ = 1,按 D_R/D_P 的相对大小分配。引入 warmup 机制限制初始解码阶段的推理介入
-
设计动机: 不同任务、不同解码步对推理/感知的需求不同。数学问题需较大 αᵣ,音频感知任务需较大 αₚ。固定 α 无法适配所有场景(实验表明各任务最优 α 差异大)
-
扩展公式:
- 做什么: 完整融合公式包含两个对比项
- 核心思路: P̂ = Softmax[M_O(x<t,O) + αᵣ·(M_R(x<t) - M_O(x<t)) + αₚ·(M_O(x<t,O) - M_O(x<t))]。第二个对比项是一种"激进"的视觉对比解码,直接用去除多模态输入的差值来增强感知
- 设计动机: 双对比项可以同时独立地增强推理和感知能力
损失函数 / 训练策略¶
完全无训练。要求 OLLM 和 LRM 共享词表(如同属 Qwen 家族)。推理时需 3 次前向传播。
实验关键数据¶
主实验¶
| 模型 | MathVista | MathVision | MathVerse | MMAU | DailyOmni | OmniBench |
|---|---|---|---|---|---|---|
| GPT-4o | 63.8 | 30.4 | 50.8 | 62.5 | 56.5 | - |
| Gemini-2.0-Flash | 73.1 | 41.3 | 59.3 | 70.5 | 67.8 | - |
| Qwen2.5-Omni-7B | 66.8 | 25.0 | 40.2 | 71.5 | 57.9 | 42.1 |
| +DeepSeek Guide | 68.8(+2.0) | 28.2(+3.2) | 42.0(+1.8) | 73.8(+2.3) | 59.8(+1.9) | 43.2(+1.1) |
| +Qwen3 Guide | 70.2(+3.4) | 32.9(+7.9) | 45.1(+4.9) | 75.5(+4.0) | 59.5(+1.6) | 43.6(+1.5) |
| Omni-R1 (RFT) | 64.7 | 25.4 | 39.8 | 70.5 | 59.6 | 43.0 |
| +Qwen3 Guide | 71.3(+6.6) | 31.5(+6.1) | 45.2(+5.4) | 75.4(+4.9) | 59.8(+0.2) | 43.4(+0.4) |
消融实验 - 与其他无训练方法对比(基于 Qwen2.5-Omni-7B)¶
| 方法 | MathVista | MMAU | OmniBench |
|---|---|---|---|
| Base Model | 66.8 | 71.5 | 42.1 |
| Average Logits Fusion | 55.0(-11.8) | 55.7(-15.8) | 36.1(-6.0) |
| Caption-then-Answer | 61.0(-5.8) | 59.7(-11.8) | 32.3(-9.8) |
| VCD | 66.5(-0.3) | 72.2(+0.7) | 43.1(+1.0) |
| ThinkOmni | 68.8(+2.0) | 73.8(+2.3) | 43.2(+1.1) |
关键发现¶
- 在已经过 RFT 的 Omni-R1 上再应用 ThinkOmni 仍有显著提升(MathVista +6.6),说明方法与 RFT 互补
- 更强的 LRM(Qwen3 > DeepSeek-R1-Distill)带来更大提升,验证了"引导质量决定提升幅度"
- 数学/科学任务提升最大(MathVision +7.9),音频/通用任务提升较小,符合预期(LRM 训练偏向数学科学)
- 简单的 logits 平均融合会严重损害性能(-11.8),说明对比融合的必要性
- 效率分析:7B+7B 配置下 generate 延迟 2.88×,prefill 延迟 1.38×(因 LRM 仅处理文本,前缀较轻)
亮点与洞察¶
- 无训练框架超越有训练方法: 基于 Qwen2.5-Omni-7B + Qwen3,在多个基准上匹配或超越需要 RFT 的 Omni-R1 和 HumanOmniV2
- Stepwise Contrastive Scaling 优雅实用: 通过 JS 散度自动估计推理/感知需求,避免了手动调参的痛苦
- 即插即用 + 可扩展: 随着更强 LRM 出现(LRM 发展通常快于多模态变体),ThinkOmni 可自动受益
- 质性分析丰富: token 级别的 LRM 贡献可视化显示逻辑连接词和关键术语主要由 LRM 引导,内容词由 OLLM 贡献
局限性 / 可改进方向¶
- 要求 OLLM 和 LRM 共享词表,限制了模型组合的灵活性(如无法用 LLaMA 系 LRM 引导 Qwen 系 OLLM)
- 每步需 3 次前向传播,推理开销约 2.88× 原始模型,对部署延迟敏感的场景有挑战
- 在音频和通用全模态任务上提升有限(DailyOmni 仅 +1.6),说明对感知密集型任务帮助有限
- 当多模态输入中存在矛盾信息时(如标签与视觉内容矛盾),LRM 可能错误引导推理
相关工作与启发¶
- 与 ProxyTuning(同属引导解码范式)的关键区别:ThinkOmni 实现跨模态引导,LRM 无需感知多模态输入
- 与 VCD(视觉对比解码)互补:VCD 增强感知、ThinkOmni 增强推理
- 为"推理能力迁移"提供新范式:不微调模型,而是在推理时通过 logits 融合实现能力嫁接
评分¶
- 新颖性: ⭐⭐⭐⭐ 跨模态引导解码的思路新颖,Stepwise Contrastive Scaling 设计优雅
- 实验充分度: ⭐⭐⭐⭐⭐ 6 个基准、3 个 OLLM、多种 LRM、完整消融和效率分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析透彻,可视化案例丰富
- 价值: ⭐⭐⭐⭐⭐ 无训练即超越 RFT 方法,实用性极强,范式创新对社区有重要启发