L2V-CoT: Cross-Modal Transfer of Chain-of-Thought Reasoning via Latent Intervention¶
会议: AAAI 2026
arXiv: 2511.17910
代码: 无
领域: 多模态VLM / 推理增强
关键词: CoT推理迁移, 激活工程, 频域分析, LLM到VLM, training-free
一句话总结¶
通过 LAT 分析发现 LLM 和 VLM 的低频 CoT 方向表示具有相似分布,提出 L2V-CoT:从 LLM 提取 CoT 方向表示 → 低通滤波 → 频域重采样匹配维度 → 注入 VLM 隐藏层,training-free 地将 LLM 的推理能力迁移到 VLM,平均提升 3.7%,最高 8.6%。
背景与动机¶
CoT 推理显著增强了 LLM 的能力,但 VLM 在多步推理任务上仍然挣扎,主要因为多模态推理数据稀缺。现有迁移方法有三种路线:(1) Virgo 等通过微调 VLM 学习文本 CoT 数据,但训练成本高;(2) 模型合并将 LLM 参数融合到 VLM,但要求架构一致(VLM 的 LLM backbone 必须与源 LLM 相同);(3) 激活工程(如 RoT)在 VLM 内部激活推理神经元,但受限于 VLM 自身的推理上限。核心挑战:如何跨架构将更强 LLM 的推理能力迁移到 VLM?
核心问题¶
LLM 和 VLM 虽然架构不同,甚至维度不同,是否存在可共享的推理表示?如果存在,如何在不训练的情况下实现跨模态、跨架构的推理能力迁移?
方法详解¶
整体框架¶
L2V-CoT 包含两步:(1) 从 LLM(DeepSeek-R1-Distill-Qwen-32B)提取低通 CoT 模式表示;(2) 推理时将该表示注入 VLM 中间层,隐式增强推理能力。
关键设计¶
-
LAT 分析的关键发现:用对比输入("Let's think step by step" vs "Answer directly")通过 LLM/VLM 获取 CoT/Non-CoT 隐藏状态,计算方向表示 \(u = h(c) - h(d)\)。发现:(a) VLM 和 LLM 的 CoT 表示在潜空间中聚类到不同区域;(b) VLM 的 CoT 方向表示离散度远高于 LLM(1117.8 vs 176.7),因为多模态训练引入的表示漂移集中在高频成分;(c) 对 VLM 表示做低通滤波后,离散度降至 197.7,接近 LLM 的 176.7;(d) 低频成分保留了 CoT 信息(注入低频可激活推理,注入高频无效)。
-
频域低通滤波 + 重采样:对 LLM 的 CoT 模式表示 \(v(l_L)\)(100 个样本的均值方向表示)做 FFT → 低通滤波(保留前 k 个频率分量)→ LMN 频域重采样(将 LLM 维度对齐到 VLM 维度)→ IFFT → 归一化。关键:在频域做重采样而非直接插值,保留了更多 CoT 信息(消融显示插值严重损害性能)。
-
潜空间注入:在 VLM 中间层注入低通 CoT 模式表示:\(\hat{h}_V = h_V + \alpha \cdot \hat{v}_{LPF}\),然后对更新后的激活做范数归一化(保持原始表示空间的尺度)。注入系数 α 适度(过低无效果,过高干扰原始语义)。
损失函数 / 训练策略¶
完全 training-free。仅需 100 个 CoT/Non-CoT 样本对从 LLM 提取表示(一次性),推理时每个 token 在指定层做向量加法。
实验关键数据¶
| VLM | 方法 | MathVista-All | MathVerse | MMStar-All |
|---|---|---|---|---|
| LLaVA-8B | Non-CoT | 35.2 | 20.9 | 22.9 |
| LLaVA-8B | Finetuned CoT | 39.9 | 24.1 | 25.8 |
| LLaVA-8B | L2V-CoT | 41.8 | 25.5 | 26.9 |
| QwenVL-7B | Non-CoT | 60.5 | 26.9 | 33.8 |
| QwenVL-7B | Finetuned CoT | 63.7 | 32.8 | 35.3 |
| QwenVL-7B | L2V-CoT | 64.2 | 35.5 | 35.9 |
| InternVL-8B | Non-CoT | 59.3 | 29.9 | 30.5 |
| InternVL-8B | L2V-CoT | 61.6 | 33.3 | 33.7 |
消融实验要点¶
- 用插值替代 LMN 频域重采样:性能暴跌(LLaVA MathVista 从 41.8 降到 31.1),证明频域方法保留信息的优势
- 用 VLM 自身的低通方向表示代替 LLM:提升有限(36.3 vs 41.8),证明 LLM 推理能力更强
- 更强的 LLM 带来更大提升:DeepSeek-R1 7B→14B→32B,LLaVA MathVista 从 38.6→38.9→41.8
- 层级注入分析:中间层最佳,浅层干扰感知,深层剩余层不够处理注入信息
- 可与显式推理方法(Mulberry/MCTS)互补组合,进一步提升
亮点¶
- 频域视角的深刻洞见:发现 VLM 和 LLM 的 CoT 表示在低频分量上高度一致,高频差异来自多模态训练引入的噪声。这个发现本身就是重要的科学贡献——暗示不同架构的神经网络可能在抽象推理层面共享相似的内部表示结构
- 真正的跨架构 training-free 迁移:不要求 VLM 和 LLM 共享 backbone,通过频域重采样优雅解决维度不匹配。这意味着可以用最强的 LLM(如 DeepSeek-R1)增强任意 VLM 的推理能力
- 超越有监督方法:L2V-CoT(training-free)在多个 benchmark 上超过了 Finetuned CoT(有监督),说明直接操作隐藏表示可能比微调更高效——因为微调会同时修改有用和无用的参数,而激活注入只改变关键推理表示
- 即插即用且与显式方法互补:可与 MCTS 等显式推理搜索方法组合,实现隐式推理增强+显式推理搜索的双重提升
- LAT 分析方法论贡献:用 Linear Artificial Tomography 进行跨模态推理表示分析的框架本身可以推广到其他能力迁移研究
局限性 / 可改进方向¶
- 注入层和注入强度需要 per-task 调优(Table S.2/S.3 显示不同任务用不同超参),缺少自适应选择机制
- 只在数学推理 benchmark 上验证,未测试通用 VQA 或更广泛的推理任务(如空间推理、因果推理)
- CoT 样本来自 STILL-2 数据集(数学/物理/化学/生物),领域偏差可能影响泛化到其他领域(如法律、金融推理)
- 频域重采样假设 CoT 信息集中在低频——这在数学推理上成立,但不清楚在需要精细符号操作的任务上是否仍然成立
- 低通滤波的截止频率选择缺乏理论指导,目前依赖经验调优
- 隐藏表示注入的可解释性有限——虽然效果好但难以解释注入后 VLM 内部推理过程具体如何改变
- 方法对 VLM 的模型规模是否有要求?在极小(<1B)或极大(>70B)的 VLM 上效果可能不同
与相关工作的对比¶
- vs Virgo(Finetuned CoT):Virgo 需要对 VLM 做 SFT,训练成本高;L2V-CoT 零训练且性能更好
- vs Model Merging:模型合并要求架构一致,L2V-CoT 可跨 LLaMA→Qwen 等不同架构迁移
- vs RoT:RoT 从 CoT prompt 提取方向表示注入 VLM,但受限于 VLM 自身推理能力;L2V-CoT 从更强的外部 LLM 提取
- vs MathNeuro:MathNeuro 通过剪枝/缩放激活推理神经元,但忽略了神经元间的协调关系
启发与关联¶
- "低频分量编码核心能力,高频分量是噪声/模态特异性信息"——这个观察可能适用于其他跨模态迁移场景
- 频域重采样作为维度对齐方法,比简单插值或线性投影更优,值得在其他激活工程任务中探索
- 与
ideas/multimodal_vlm/20260316_causal_process_reward_vision.md中推理增强的思路互补
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次用频域分析揭示 LLM/VLM 推理表示的跨架构一致性,方法新颖优雅
- 实验充分度: ⭐⭐⭐⭐ 4 个 VLM × 5 个 benchmark,消融完整,多尺度 LLM 验证
- 写作质量: ⭐⭐⭐⭐ 经验分析→方法设计的逻辑清晰,频域可视化有很强的说服力
- 价值: ⭐⭐⭐⭐ 提供了一种通用的跨架构推理迁移方案,对 VLM 推理增强有实际意义,频域分析框架可推广