跳转至

Enhancing Zero-shot Commonsense Reasoning by Integrating Visual Knowledge via Machine Imagination

日期: 2026-03-05
arXiv: 2603.05040
代码: GitHub
领域: 多模态/VLM
关键词: zero-shot commonsense reasoning, machine imagination, visual knowledge, multimodal, synthetic VQA

一句话总结

提出 Imagine 框架,通过将文本到图像生成器嵌入推理管线,为预训练语言模型补充"机器想象"视觉信号,并构建 Synthetic VQA/VQA+ 数据集训练模型联合利用文本与视觉信息,在零样本常识推理任务上以 <1B 参数超越 GPT-4。

研究背景与动机

  1. 领域现状:零样本常识推理的主流方法是利用外部知识库(ATOMIC、ConceptNet)将知识三元组转为 QA 对,训练PLM获取推理能力。
  2. 现有痛点:纯文本知识受 human reporting bias 影响——人们倾向于记录常见场景而忽略同样重要但不常被提及的知识(如"黄油太硬不能蘸"这种物理常识在文本中很少出现)。
  3. 核心矛盾:文本知识的覆盖面天然有限,某些需要视觉直觉才能判断的常识(形状、质地、空间关系)在纯文本中严重缺失。
  4. 切入角度:认知研究表明视觉想象有助于语言理解。本文受此启发,让 PLM 具备"想象"能力——对文本问题自动生成图像,获取视觉补充信息。
  5. 核心 idea:在推理管线中嵌入文本到图像生成器 + 视觉编码器,构建多模态合成数据集训练 PLM 联合利用文本和视觉信号,缓解报告偏差。

方法详解

整体框架

Imagine 包含三个阶段:(1) 构建 Synthetic VQA/VQA+ 多模态数据集;(2) 在合成数据上预训练 PLM 学习视觉-文本联合推理;(3) 推理时通过图像生成或检索获取视觉信号辅助答题。

输入为纯文本 QA 问题,通过文本到图像模型(DALL-E 3)生成对应图像,再由 PLM 和视觉编码器(CLIP)分别提取文本和视觉特征,融合后做出预测。

关键设计

  1. 机器想象模块

    • 做什么:将文本问题转化为视觉图像,提供文本中缺失的视觉常识
    • 核心思路:将文本到图像生成器 \(M_{T2I}\) 和视觉编码器 \(M_I\) 接入 PLM \(M_T\)。给定问题 Q,先用 \(M_{T2I}\) 生成图像 I,再用 \(M_I\) 提取视觉特征 V
    • 设计动机:直接生成图像比文本检索能覆盖更多隐性视觉知识,解决 reporting bias
  2. Synthetic VQA / VQA+ 数据集构建

    • 做什么:构建包含 (Q, A, I) 三元组的大规模合成 VQA 数据集
    • 核心思路:从 AbstractATOMIC 知识库提取三元组 → 自然语言模板转 QA 对 → DALL-E 3 生成对应图像。VQA+ 版本额外引入 VCR 和 Sherlock 数据集的真实图像,并用 VERA 模型过滤不合理样本(阈值 0.5)
    • 数据规模:VQA 约 77 万 QA 对 / 11 万图像;VQA+ 约 93 万 QA 对 / 18 万图像
  3. 双目标训练(LM + ITM)

    • 做什么:分别计算语言模型得分和图文匹配得分,联合优化
    • 核心思路:LM 目标使用 masked/autoregressive loss 计算 \(S_{LM}(T)\);ITM 目标通过 cross-attention 将视觉特征融入文本上下文,计算相似度 \(S_I(T,V) = \text{sim}(\vec{T}, C)\),其中 \(C = \text{softmax}(\frac{\vec{T}V^\top}{\sqrt{d_v}})V\)。联合得分 \(S_J = \frac{1}{2}(S_{LM} + S_I)\)
    • 设计动机:引入独立的 LM adapter 和 ITM adapter 避免两个目标冲突,仅训练 adapter 参数(约 8M)
  4. 检索式推理加速

    • 做什么:用预建图像库替代实时图像生成,大幅提速
    • 核心思路:构建 Synthetic VQA+ 和 MSCOCO 图像库,用 CLIP 编码后按余弦相似度检索 top-1 最相关图像

损失函数 / 训练策略

三重 marginal ranking loss:\(\mathcal{L} = \mathcal{L}_{QA}(S_{LM}) + \mathcal{L}_{QA}(S_I) + \mathcal{L}_{QA}(S_J)\),其中 \(\mathcal{L}_{QA}(S) = \frac{1}{n}\sum_{i \neq y} \max(0, \eta - S^{(y)} + S^{(i)})\)。仅更新两个 Parallel Adapter 的参数,主体 PLM 冻结。

实验关键数据

主实验

方法 模型规模 αNLI CSQA PIQA SIQA WG 平均
CAR (DeBERTa-v3-L) 443M 79.6 69.3 78.6 64.0 78.2 73.9
CANDLE (DeBERTa-v3-L) 443M 81.2 69.9 80.3 65.9 78.3 75.1
ChatGPT - 73.2 75.7 81.7 69.7 64.1 72.9
GPT-4 - 75.0 43.0 73.0 57.0 77.0 65.0
Imagine (DeBERTa-v3-L) 443M 84.2 73.2 82.3 68.1 80.2 77.6

消融实验

配置 αNLI CSQA PIQA SIQA WG
w/o 视觉信号(纯 LM) 79.6 69.3 78.6 64.0 78.2
w/ 生成图像 84.2 73.2 82.3 68.1 80.2
w/ 检索图像 83.8 72.5 81.9 67.8 79.8
w/o VQA+ 过滤 82.1 71.0 80.5 66.5 79.0
单一 adapter 81.5 70.2 79.8 65.8 78.5

关键发现

  • 视觉信号带来约 2-4% 的绝对提升,说明 reporting bias 确实是纯文本推理的瓶颈
  • VQA+ 的质量过滤(VERA 模型)贡献约 1-2%,证明数据质量比数量更重要
  • 检索式推理性能仅略低于生成式,但推理速度提升数十倍
  • 双 adapter 设计有效缓解 LM 和 ITM 目标冲突

亮点与洞察

  • 机器想象作为模态桥:在纯文本任务中引入视觉模态,不是为了理解图像,而是用图像补充文本知识的盲区。逆向利用多模态——视觉服务于语言理解
  • 小模型超大模型:<1B 参数的模型通过视觉增强超过 GPT-4,说明知识补充比模型规模更关键
  • 合成数据 + 质量过滤:VERA 模型过滤不合理样本的策略值得借鉴,可迁移到其他合成数据管线

局限性 / 可改进方向

  • 图像生成模型可能产生与问题不一致的图像(alignment 问题),虽然有检索替代但根本问题未解决
  • 仅验证了常识推理任务,对更复杂的推理(数学、逻辑)是否有效需进一步探索
  • 训练时间较长(DeBERTa 80h),主要瓶颈在图像生成
  • 知识库依赖 ATOMIC,其覆盖面仍有限

相关工作与启发

  • vs Z-LaVI:Z-LaVI 也用图像辅助推理但不做预训练,本文通过 Synthetic VQA 预训练学到更稳健的视觉利用能力
  • vs CANDLE:CANDLE 仍是纯文本框架,本文加入视觉模态后平均提升 2.5%
  • vs VLM(InstructBLIP等):VLM 在常识推理上表现一般,因为它们优化目标不是常识推理而是图文理解

评分

  • 新颖性: ⭐⭐⭐⭐ 机器想象的思路有趣但非全新,Z-LaVI已有类似尝试
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多模型规模、多消融,非常全面
  • 写作质量: ⭐⭐⭐⭐ 清晰完整,图表丰富
  • 价值: ⭐⭐⭐⭐ 为纯文本推理提供了有效的视觉增强范式