跳转至

ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding

会议: ICLR 2026
arXiv: 2602.23306
代码: https://1ranguan.github.io/thinkomni
领域: 多模态VLM
关键词: 全模态推理, 引导解码, LRM, 无训练, 对比缩放

一句话总结

提出 ThinkOmni 无训练框架,利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM),通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号,MathVista 达 70.2%、MMAU 达 75.5%,匹配或超越 RFT 方法。

研究背景与动机

  1. 领域现状: 大推理模型(LRM)如 DeepSeek-R1、o1 在文本推理任务上表现卓越,但仅处理文本输入。全模态 LLM(OLLM)如 Qwen2.5-Omni 虽能处理文本+音频+图像+视频,但在复杂推理任务上仍有短板。

  2. 现有痛点: 提升 OLLM 推理能力的现有路径面临多重挑战:

  3. 数据稀缺: SFT 需要大量高质量多模态推理样本,获取成本高
  4. 训练昂贵: RFT(强化微调)需要大量 GPU 资源(7B 模型需 8×40G,32B 需 16×80G)
  5. 任务特化: 现有增强方案(如 Omni-R1、HumanOmniV2)局限于特定下游任务,缺乏泛化性
  6. 模态局限: 多数工作仅关注单一模态(图像或音频),未真正实现跨模态推理

  7. 核心矛盾: LRM 有强推理能力但无法处理非文本输入;OLLM 能处理多模态输入但推理能力不足。两者优势互补,但如何在推理时无训练地融合是关键难题。

  8. 本文要解决什么? 不依赖额外训练数据或微调,将 LRM 的文本推理能力"提升"到全模态场景。

  9. 切入角度: 从推理时引导解码(guidance decoding)切入,将 LRM 作为 OLLM 的解码时"顾问",在 logits 层面融合两者信号。

  10. 核心idea一句话: 用 LRM 产生的纯文本推理信号在 logits 层引导 OLLM 的全模态解码,并通过逐步对比缩放自适应调节感知-推理平衡。

方法详解

整体框架

ThinkOmni 框架由两个核心组件构成:(1) LRM-as-a-Guide: 将 OLLM 和 LRM 的输出 logits 通过对比方式融合,形成增强的解码分布;(2) Stepwise Contrastive Scaling: 在每个解码步自动计算感知贡献和推理贡献的强度,动态调节融合权重,无需手动调参。

关键设计

  1. LRM-as-a-Guide:
  2. 做什么: 在每个解码步,分别从 OLLM(全模态输入)、OLLM(仅文本输入)、LRM(仅文本输入)获取三组 logits,构建对比信号
  3. 核心思路: 基础 logits z^base = M_O(x<t, O),负 logits z⁻ = M_O(x<t)(去除多模态输入),正 logits z⁺ = M_R(x<t)。融合公式:P̂ = Softmax[z^base + α·(z⁺ - z⁻)]。(z⁺ - z⁻) 对比项编码了 LRM 相对于 OLLM 纯文本模式的推理偏好增量
  4. 设计动机: 类似差分放大器,z⁺-z⁻ 放大了 LRM 的推理信号同时抑制了两个模型共有的语言噪声。LRM 虽无法感知多模态内容,但随着解码推进,已生成的文本 context 中隐含了多模态信息

  5. Stepwise Contrastive Scaling:

  6. 做什么: 在每个解码步动态计算推理权重 αᵣ 和感知权重 αₚ,替代固定的 α
  7. 核心思路: 用 Jensen-Shannon 散度量化三个分布间的差异:D_R = JS(P_R ‖ P) 反映推理贡献,D_P = JS(P_O ‖ P) 反映感知贡献。αᵣ + αₚ = 1,按 D_R/D_P 的相对大小分配。引入 warmup 机制限制初始解码阶段的推理介入
  8. 设计动机: 不同任务、不同解码步对推理/感知的需求不同。数学问题需较大 αᵣ,音频感知任务需较大 αₚ。固定 α 无法适配所有场景(实验表明各任务最优 α 差异大)

  9. 扩展公式:

  10. 做什么: 完整融合公式包含两个对比项
  11. 核心思路: P̂ = Softmax[M_O(x<t,O) + αᵣ·(M_R(x<t) - M_O(x<t)) + αₚ·(M_O(x<t,O) - M_O(x<t))]。第二个对比项是一种"激进"的视觉对比解码,直接用去除多模态输入的差值来增强感知
  12. 设计动机: 双对比项可以同时独立地增强推理和感知能力

损失函数 / 训练策略

完全无训练。要求 OLLM 和 LRM 共享词表(如同属 Qwen 家族)。推理时需 3 次前向传播。

实验关键数据

主实验

模型 MathVista MathVision MathVerse MMAU DailyOmni OmniBench
GPT-4o 63.8 30.4 50.8 62.5 56.5 -
Gemini-2.0-Flash 73.1 41.3 59.3 70.5 67.8 -
Qwen2.5-Omni-7B 66.8 25.0 40.2 71.5 57.9 42.1
+DeepSeek Guide 68.8(+2.0) 28.2(+3.2) 42.0(+1.8) 73.8(+2.3) 59.8(+1.9) 43.2(+1.1)
+Qwen3 Guide 70.2(+3.4) 32.9(+7.9) 45.1(+4.9) 75.5(+4.0) 59.5(+1.6) 43.6(+1.5)
Omni-R1 (RFT) 64.7 25.4 39.8 70.5 59.6 43.0
+Qwen3 Guide 71.3(+6.6) 31.5(+6.1) 45.2(+5.4) 75.4(+4.9) 59.8(+0.2) 43.4(+0.4)

消融实验 - 与其他无训练方法对比(基于 Qwen2.5-Omni-7B)

方法 MathVista MMAU OmniBench
Base Model 66.8 71.5 42.1
Average Logits Fusion 55.0(-11.8) 55.7(-15.8) 36.1(-6.0)
Caption-then-Answer 61.0(-5.8) 59.7(-11.8) 32.3(-9.8)
VCD 66.5(-0.3) 72.2(+0.7) 43.1(+1.0)
ThinkOmni 68.8(+2.0) 73.8(+2.3) 43.2(+1.1)

关键发现

  • 在已经过 RFT 的 Omni-R1 上再应用 ThinkOmni 仍有显著提升(MathVista +6.6),说明方法与 RFT 互补
  • 更强的 LRM(Qwen3 > DeepSeek-R1-Distill)带来更大提升,验证了"引导质量决定提升幅度"
  • 数学/科学任务提升最大(MathVision +7.9),音频/通用任务提升较小,符合预期(LRM 训练偏向数学科学)
  • 简单的 logits 平均融合会严重损害性能(-11.8),说明对比融合的必要性
  • 效率分析:7B+7B 配置下 generate 延迟 2.88×,prefill 延迟 1.38×(因 LRM 仅处理文本,前缀较轻)

亮点与洞察

  • 无训练框架超越有训练方法: 基于 Qwen2.5-Omni-7B + Qwen3,在多个基准上匹配或超越需要 RFT 的 Omni-R1 和 HumanOmniV2
  • Stepwise Contrastive Scaling 优雅实用: 通过 JS 散度自动估计推理/感知需求,避免了手动调参的痛苦
  • 即插即用 + 可扩展: 随着更强 LRM 出现(LRM 发展通常快于多模态变体),ThinkOmni 可自动受益
  • 质性分析丰富: token 级别的 LRM 贡献可视化显示逻辑连接词和关键术语主要由 LRM 引导,内容词由 OLLM 贡献

局限性 / 可改进方向

  • 要求 OLLM 和 LRM 共享词表,限制了模型组合的灵活性(如无法用 LLaMA 系 LRM 引导 Qwen 系 OLLM)
  • 每步需 3 次前向传播,推理开销约 2.88× 原始模型,对部署延迟敏感的场景有挑战
  • 在音频和通用全模态任务上提升有限(DailyOmni 仅 +1.6),说明对感知密集型任务帮助有限
  • 当多模态输入中存在矛盾信息时(如标签与视觉内容矛盾),LRM 可能错误引导推理

相关工作与启发

  • 与 ProxyTuning(同属引导解码范式)的关键区别:ThinkOmni 实现跨模态引导,LRM 无需感知多模态输入
  • 与 VCD(视觉对比解码)互补:VCD 增强感知、ThinkOmni 增强推理
  • 为"推理能力迁移"提供新范式:不微调模型,而是在推理时通过 logits 融合实现能力嫁接

评分

  • 新颖性: ⭐⭐⭐⭐ 跨模态引导解码的思路新颖,Stepwise Contrastive Scaling 设计优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个基准、3 个 OLLM、多种 LRM、完整消融和效率分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析透彻,可视化案例丰富
  • 价值: ⭐⭐⭐⭐⭐ 无训练即超越 RFT 方法,实用性极强,范式创新对社区有重要启发