ThinkOmni: Lifting Textual Reasoning to Omni-modal Scenarios via Guidance Decoding¶

会议: ICLR 2026
arXiv: 2602.23306
代码: https://1ranguan.github.io/thinkomni
领域: 多模态VLM
关键词: 全模态推理, 引导解码, LRM, 无训练, 对比缩放

一句话总结¶

提出 ThinkOmni 无训练框架，利用纯文本大推理模型(LRM)在解码时引导全模态 LLM(OLLM)，通过 Stepwise Contrastive Scaling 自适应平衡感知与推理信号，MathVista 达 70.2%、MMAU 达 75.5%，匹配或超越 RFT 方法。

研究背景与动机¶

领域现状: 大推理模型(LRM)如 DeepSeek-R1、o1 在文本推理任务上表现卓越，但仅处理文本输入。全模态 LLM(OLLM)如 Qwen2.5-Omni 虽能处理文本+音频+图像+视频，但在复杂推理任务上仍有短板。
现有痛点: 提升 OLLM 推理能力的现有路径面临多重挑战：
数据稀缺: SFT 需要大量高质量多模态推理样本，获取成本高
训练昂贵: RFT（强化微调）需要大量 GPU 资源（7B 模型需 8×40G，32B 需 16×80G）
任务特化: 现有增强方案（如 Omni-R1、HumanOmniV2）局限于特定下游任务，缺乏泛化性
模态局限: 多数工作仅关注单一模态（图像或音频），未真正实现跨模态推理
核心矛盾: LRM 有强推理能力但无法处理非文本输入；OLLM 能处理多模态输入但推理能力不足。两者优势互补，但如何在推理时无训练地融合是关键难题。
本文要解决什么？ 不依赖额外训练数据或微调，将 LRM 的文本推理能力"提升"到全模态场景。
切入角度: 从推理时引导解码(guidance decoding)切入，将 LRM 作为 OLLM 的解码时"顾问"，在 logits 层面融合两者信号。
核心idea一句话: 用 LRM 产生的纯文本推理信号在 logits 层引导 OLLM 的全模态解码，并通过逐步对比缩放自适应调节感知-推理平衡。

方法详解¶

整体框架¶

ThinkOmni 框架由两个核心组件构成：(1) LRM-as-a-Guide: 将 OLLM 和 LRM 的输出 logits 通过对比方式融合，形成增强的解码分布；(2) Stepwise Contrastive Scaling: 在每个解码步自动计算感知贡献和推理贡献的强度，动态调节融合权重，无需手动调参。

关键设计¶

LRM-as-a-Guide:
做什么: 在每个解码步，分别从 OLLM（全模态输入）、OLLM（仅文本输入）、LRM（仅文本输入）获取三组 logits，构建对比信号
核心思路: 基础 logits z^base = M_O(x<t, O)，负 logits z⁻ = M_O(x<t)（去除多模态输入），正 logits z⁺ = M_R(x<t)。融合公式：P̂ = Softmax[z^base + α·(z⁺ - z⁻)]。(z⁺ - z⁻) 对比项编码了 LRM 相对于 OLLM 纯文本模式的推理偏好增量
设计动机: 类似差分放大器，z⁺-z⁻ 放大了 LRM 的推理信号同时抑制了两个模型共有的语言噪声。LRM 虽无法感知多模态内容，但随着解码推进，已生成的文本 context 中隐含了多模态信息
Stepwise Contrastive Scaling:
做什么: 在每个解码步动态计算推理权重 αᵣ 和感知权重 αₚ，替代固定的 α
核心思路: 用 Jensen-Shannon 散度量化三个分布间的差异：D_R = JS(P_R ‖ P) 反映推理贡献，D_P = JS(P_O ‖ P) 反映感知贡献。αᵣ + αₚ = 1，按 D_R/D_P 的相对大小分配。引入 warmup 机制限制初始解码阶段的推理介入
设计动机: 不同任务、不同解码步对推理/感知的需求不同。数学问题需较大 αᵣ，音频感知任务需较大 αₚ。固定 α 无法适配所有场景（实验表明各任务最优 α 差异大）
扩展公式:
做什么: 完整融合公式包含两个对比项
核心思路: P̂ = Softmax[M_O(x<t,O) + αᵣ·(M_R(x<t) - M_O(x<t)) + αₚ·(M_O(x<t,O) - M_O(x<t))]。第二个对比项是一种"激进"的视觉对比解码，直接用去除多模态输入的差值来增强感知
设计动机: 双对比项可以同时独立地增强推理和感知能力

损失函数 / 训练策略¶

完全无训练。要求 OLLM 和 LRM 共享词表（如同属 Qwen 家族）。推理时需 3 次前向传播。

实验关键数据¶

主实验¶

模型	MathVista	MathVision	MathVerse	MMAU	DailyOmni	OmniBench
GPT-4o	63.8	30.4	50.8	62.5	56.5	-
Gemini-2.0-Flash	73.1	41.3	59.3	70.5	67.8	-
Qwen2.5-Omni-7B	66.8	25.0	40.2	71.5	57.9	42.1
+DeepSeek Guide	68.8(+2.0)	28.2(+3.2)	42.0(+1.8)	73.8(+2.3)	59.8(+1.9)	43.2(+1.1)
+Qwen3 Guide	70.2(+3.4)	32.9(+7.9)	45.1(+4.9)	75.5(+4.0)	59.5(+1.6)	43.6(+1.5)
Omni-R1 (RFT)	64.7	25.4	39.8	70.5	59.6	43.0
+Qwen3 Guide	71.3(+6.6)	31.5(+6.1)	45.2(+5.4)	75.4(+4.9)	59.8(+0.2)	43.4(+0.4)

消融实验 - 与其他无训练方法对比（基于 Qwen2.5-Omni-7B）¶

方法	MathVista	MMAU	OmniBench
Base Model	66.8	71.5	42.1
Average Logits Fusion	55.0(-11.8)	55.7(-15.8)	36.1(-6.0)
Caption-then-Answer	61.0(-5.8)	59.7(-11.8)	32.3(-9.8)
VCD	66.5(-0.3)	72.2(+0.7)	43.1(+1.0)
ThinkOmni	68.8(+2.0)	73.8(+2.3)	43.2(+1.1)

关键发现¶

在已经过 RFT 的 Omni-R1 上再应用 ThinkOmni 仍有显著提升（MathVista +6.6），说明方法与 RFT 互补
更强的 LRM（Qwen3 > DeepSeek-R1-Distill）带来更大提升，验证了"引导质量决定提升幅度"
数学/科学任务提升最大（MathVision +7.9），音频/通用任务提升较小，符合预期（LRM 训练偏向数学科学）
简单的 logits 平均融合会严重损害性能（-11.8），说明对比融合的必要性
效率分析：7B+7B 配置下 generate 延迟 2.88×，prefill 延迟 1.38×（因 LRM 仅处理文本，前缀较轻）

亮点与洞察¶

无训练框架超越有训练方法: 基于 Qwen2.5-Omni-7B + Qwen3，在多个基准上匹配或超越需要 RFT 的 Omni-R1 和 HumanOmniV2
Stepwise Contrastive Scaling 优雅实用: 通过 JS 散度自动估计推理/感知需求，避免了手动调参的痛苦
即插即用 + 可扩展: 随着更强 LRM 出现（LRM 发展通常快于多模态变体），ThinkOmni 可自动受益
质性分析丰富: token 级别的 LRM 贡献可视化显示逻辑连接词和关键术语主要由 LRM 引导，内容词由 OLLM 贡献

局限性 / 可改进方向¶

要求 OLLM 和 LRM 共享词表，限制了模型组合的灵活性（如无法用 LLaMA 系 LRM 引导 Qwen 系 OLLM）
每步需 3 次前向传播，推理开销约 2.88× 原始模型，对部署延迟敏感的场景有挑战
在音频和通用全模态任务上提升有限（DailyOmni 仅 +1.6），说明对感知密集型任务帮助有限
当多模态输入中存在矛盾信息时（如标签与视觉内容矛盾），LRM 可能错误引导推理

评分¶

新颖性: ⭐⭐⭐⭐ 跨模态引导解码的思路新颖，Stepwise Contrastive Scaling 设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 6 个基准、3 个 OLLM、多种 LRM、完整消融和效率分析
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析透彻，可视化案例丰富
价值: ⭐⭐⭐⭐⭐ 无训练即超越 RFT 方法，实用性极强，范式创新对社区有重要启发