跳转至

LLM-MRD: LLM-Guided Multi-View Reasoning Distillation for Fake News Detection

日期: 2026-03-10
arXiv: 2603.19293
代码: LLM-MRD (anonymous)
领域: 多模态 / 假新闻检测
关键词: fake news detection, knowledge distillation, multi-view reasoning, calibration distillation, teacher-student

一句话总结

提出 LLM-MRD:让 Qwen2.5-VL 教师分别从文本、图像、跨模态三视角生成推理链,再通过“校准蒸馏”把推理能力迁移给轻量学生模型,在 Weibo/Weibo21/GossipCop 上显著超过现有多模态方法。

研究背景与动机

  1. 现状: 多模态假新闻检测通常依赖特征拼接或注意力融合,但对复杂伪造(图文错配、语境误导)不够稳健。
  2. 问题:
    • 传统融合方法“看见了特征”,但未显式学习“如何推理”
    • 直接用大模型推理成本太高,不适合线上部署
  3. 核心目标: 同时获得“LLM 级推理质量”和“小模型级推理效率”。

方法详解

总体框架

输入新闻(文本 + 图片) -> 学生模型提取三视角特征 -> 教师模型生成三视角推理链 -> 校准蒸馏对齐 -> 融合判别真假。

1. 学生三视角表示

  • 文本视角:BERT + self-attention -> \(f_{text}\)
  • 图像视角:MAE + self-attention -> \(f_{image}\)
  • 跨模态视角:CLIP 图文嵌入 + co-attention -> \(f_{cross}\)

2. 教师三视角推理

  • 使用 Qwen2.5-VL 针对每个视角分别生成推理解释(reasoning chains)
  • 再用 Sentence Transformer 将推理文本编码为稠密监督向量:\(f'_{text}, f'_{image}, f'_{cross}\)

3. 校准蒸馏(Calibration Distillation)

不是简单把学生特征投影到教师空间,而是先预测“修正量”:

\[ d_v^{pred}=MLP_v([f_{text};f_{image};f_{cross}]),\quad \hat f_v=f_v+d_v^{pred} \]
  • 关键点:每个视角的修正都基于全局三视角上下文
  • 直觉:学生不是死记教师特征,而是学习“我和教师差在哪里”

蒸馏损失由两部分组成: - KL 对齐教师分布 - CE 深监督保证每个视角都可判别

4. 多视角融合

  • 将校准后的三视角特征作为 value/key
  • 由全局池化查询向量做 cross-attention
  • 输出最终融合表示用于真假分类

实验关键数据

主结果

方法 Weibo Acc Weibo21 Acc GossipCop Acc
MIMoE-FND 0.928 0.956 0.895
KEN 0.935 0.935 0.881
FactAgent 0.927 0.932 0.860
LLM-MRD 0.953 0.959 0.902

论文报告跨全部数据和方法平均提升: - ACC +5.19% - F1-Fake +6.33%

消融结论(关键)

  • 去掉校准蒸馏会显著掉点
  • 直接投影蒸馏 < 校准蒸馏(残差修正更有效)
  • 三视角同时建模优于任一单视角

关键洞察

  • 假新闻检测本质上是“证据推理”问题,不只是“特征融合”问题
  • LLM 作为“推理教师”比作为“最终推理器”更工程友好
  • 视角级蒸馏比全局蒸馏更可控,解释性也更强

局限性

  • 教师推理链质量依赖 Qwen2.5-VL,若教师幻觉会传递噪声
  • 三视角权重仍偏全局固定,缺少样本级自适应加权
  • 只验证了假新闻检测,迁移到谣言溯源/立场检测仍待验证

评分

  • 新颖性: ⭐⭐⭐⭐(从“蒸馏结果”升级到“蒸馏推理过程”)
  • 实验充分度: ⭐⭐⭐⭐(三基准、跨语言、主流强基线)
  • 写作质量: ⭐⭐⭐⭐(方法结构清晰)
  • 价值: ⭐⭐⭐⭐(适合真实场景的高性价比路线)