Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought¶

会议: CVPR 2026
arXiv: 2507.07685
代码: 无
领域: LLM推理
关键词: 思维链推理, 多模态大语言模型, 解码策略, rationale grounding, 即插即用

一句话总结¶

发现现有LVLM在CoT推理时实际上忽略了中间rationale的内容，提出 RED (Rationale-Enhanced Decoding)——将图像条件和rationale条件的next-token分布在logit层面相乘，理论上等价于KL约束奖励最大化的最优解，无需训练即可显著提升多模态推理准确率。

研究背景与动机¶

领域现状：大型视觉语言模型(LVLMs)借鉴LLM的思维链(CoT)方法，先生成中间推理过程(rationale)，再基于图像+rationale+问题生成最终答案。人们普遍认为CoT能增强多模态推理的接地性和准确性。
现有痛点：作者通过两个关键实验揭示了一个令人惊讶的事实——LVLM在CoT推理中实际上忽略了rationale的内容。(1) 注意力贡献分析：当图像和rationale同时输入时，rationale的注意力贡献显著下降，图像token主导预测；(2) rationale替换实验：将正确rationale替换为完全无关的rationale后，模型性能几乎不变，说明模型根本没有利用rationale的语义信息。
核心矛盾：$p_\theta(y_i|\mathbf{y}_{<i}, x, r, q)$ 这一联合条件概率在实践中无法有效利用$r$的信息——图像token的"吸引力"远大于rationale token。但去掉图像仅用 $p_\theta(y_i|\mathbf{y}_{<i}, r, q)$ 又会丢失视觉信息。
本文要解决什么？ 设计一种无需额外训练的解码策略，使LVLM在CoT推理时真正同时利用图像和rationale信息。
切入角度：将图像条件和rationale条件解耦为两个独立分布，在logit层面合成，避免联合条件下rationale被忽略的问题。
核心idea一句话：通过将CoT推理重新形式化为以rationale条件对数似然为奖励的KL约束最大化问题，得到最优解码策略——图像条件概率 × rationale条件概率的$\lambda$次方。

方法详解¶

整体框架¶

标准两步CoT流程：(1) 给定图像$x$和问题$q$，生成rationale $r$；(2) 给定$x$, $r$, $q$，生成最终答案。RED修改的是第(2)步的解码策略，不改变模型参数或rationale生成方式。RED可与任何rationale生成方法组合使用。

关键设计¶

KL约束奖励最大化形式化:
做什么：将CoT解码重新形式化为有理论保障的优化问题
核心思路：引入新的next-token分布$\pi$，最大化：$\max_\pi \mathbb{E}_\pi[R] - \beta \mathbb{D}_{\text{KL}}[\pi || \pi_{\text{ref}}]$，其中奖励函数 $R = \log p_\theta(y_i | \mathbf{y}_{<i}, r, q)$（rationale-grounding reward），参考策略 $\pi_{\text{ref}} = p_\theta(y_i | \mathbf{y}_{<i}, x, q)$（图像条件概率）
设计动机：最大化rationale条件对数似然确保模型利用rationale信息；KL约束防止偏离图像条件分布太远从而保留视觉信息。这避免了直接使用$p(y|x,r,q)$时rationale被忽略的问题
RED 最优解码公式:
做什么：提供闭式最优解，无需训练
核心思路：根据KL约束奖励最大化的已知最优策略形式，代入具体设定得到 $\hat{p}_\theta(y_i) = \frac{1}{Z_\theta} p_\theta(y_i|\mathbf{y}_{<i}, x, q) \times p_\theta(y_i|\mathbf{y}_{<i}, r, q)^\lambda$。这是一个power-of-experts分布，强调图像条件和rationale条件概率的交集区域
设计动机：Theorem 4.1严格证明了这一公式是Eq.(7)的最优解。$\lambda = 1/\beta$ 控制rationale信息的影响权重
实际实现（logit层面加权求和）:
做什么：将RED转化为简单的logit运算
核心思路：$\widehat{\text{logits}}_\theta(y_i) = \log\text{softmax}(\text{logits}_\theta(y_i|\mathbf{y}_{<i}, x, q)) + \lambda \cdot \log\text{softmax}(\text{logits}_\theta(y_i|\mathbf{y}_{<i}, r, q))$，然后 $\hat{p}_\theta(y_i) = \text{softmax}(\widehat{\text{logits}}_\theta(y_i))$。两个logits可以批并行推理，避免额外延迟
设计动机：log-softmax加权求和是乘法在对数空间的等价操作，实现简单且高效

损失函数 / 训练策略¶

RED是纯推理时方法，零训练。只需要对现有LVLM做两次前向传播（一次图像条件、一次rationale条件），然后在logit层面合成。唯一超参数是$\lambda$，控制rationale的影响程度。

实验关键数据¶

主实验¶

GQA 数据集准确率 (%)

方法	Gemma-3-4B	Gemma-3-12B
Direct (无CoT)	40.00	45.34
CoT (标准)	41.08	41.76 (下降!)
CCoT (场景图)	44.54	44.50
RED + CoT	提升显著	提升显著
RED + CCoT	提升显著	提升显著

关键发现：用无关rationale替换

输入	Gemma-3-4B	Gemma-3-12B
$(x, r_{\text{CoT}}, q)$	41.08	41.76
$(x, r'_{\text{CoT}}, q)$ 无关rationale	41.88	41.75
$(r_{\text{CoT}}, q)$ 仅rationale	40.15	37.87
$(r'_{\text{CoT}}, q)$ 仅无关rationale	7.40	16.21

消融实验¶

配置	效果	说明
标准CoT解码	基线	$p(y
仅rationale条件	下降	缺少视觉信息
RED ($\lambda$合理)	最优	平衡图像与rationale
高质量rationale (GPT-4) + RED	进一步提升	RED收益随rationale质量增强

关键发现¶

标准CoT经常不如直接回答：Gemma-3-12B上CoT从45.34降到41.76，因为模型忽略rationale却受到额外噪声干扰
rationale替换实验是杀手级证据：将正确rationale替换为随机rationale后性能几乎不变（±0.1%），但去掉图像只用rationale则差异巨大（40.15 vs 7.40），证明当图像存在时LVLM完全无视rationale
RED与高质量rationale（如GPT-4生成）组合时收益更大，说明RED确实让模型"用上了"rationale
RED是即插即用的，可与其他对比解码方法（VCD、LCD）叠加使用

亮点与洞察¶

发现问题比解决问题更有价值：揭示了"LVLM在多模态CoT中忽略rationale"这一关键现象，用注意力贡献分析和rationale替换两个优雅实验充分论证。这个发现挑战了CoT一定有益的普遍假设
理论优雅：将解码策略推导为KL约束奖励最大化的最优解，使得看似临时的logit相乘操作有了严格的理论支撑。这个RLHF味的推导框架也可迁移到其他"多信源融合"的解码问题
实现极简：两行代码（log-softmax加权求和）即可实现，零训练、零架构修改、零额外模型，是真正的即插即用

局限性 / 可改进方向¶

需要两次前向传播（图像条件+rationale条件），推理开销翻倍（虽然可批并行）
rationale生成步骤本身仍用标准解码，没有保证其质量；RED的收益依赖于rationale的质量
$\lambda$需要在数据集上调优，不同任务的最优$\lambda$可能不同
没有深入分析LVLM为何忽略rationale（作者提到位置偏差、attention sink、视觉指令微调过拟合等可能原因但未验证）
仅在VQA类任务上验证，未涉及开放式生成任务

评分¶

新颖性: ⭐⭐⭐⭐⭐ 发现+解法的完美结合，motivating experiments极具说服力
实验充分度: ⭐⭐⭐⭐ 多模型多数据集验证，但任务类型较单一（主要VQA）
写作质量: ⭐⭐⭐⭐⭐ 从发现问题到理论建模到实际算法，叙事流畅
价值: ⭐⭐⭐⭐⭐ 即插即用的推理增强方法，揭示了LVLMs使用CoT的重要局限性

输入	Gemma-3-4B	Gemma-3-12B
\((x, r_{\text{CoT}}, q)\)	41.08	41.76
\((x, r'_{\text{CoT}}, q)\) 无关rationale	41.88	41.75
\((r_{\text{CoT}}, q)\) 仅rationale	40.15	37.87
\((r'_{\text{CoT}}, q)\) 仅无关rationale	7.40	16.21