LLM-MRD: LLM-Guided Multi-View Reasoning Distillation for Fake News Detection¶
日期: 2026-03-10
arXiv: 2603.19293
代码: LLM-MRD (anonymous)
领域: 多模态 / 假新闻检测
关键词: fake news detection, knowledge distillation, multi-view reasoning, calibration distillation, teacher-student
一句话总结¶
提出 LLM-MRD:让 Qwen2.5-VL 教师分别从文本、图像、跨模态三视角生成推理链,再通过“校准蒸馏”把推理能力迁移给轻量学生模型,在 Weibo/Weibo21/GossipCop 上显著超过现有多模态方法。
研究背景与动机¶
- 现状: 多模态假新闻检测通常依赖特征拼接或注意力融合,但对复杂伪造(图文错配、语境误导)不够稳健。
- 问题:
- 传统融合方法“看见了特征”,但未显式学习“如何推理”
- 直接用大模型推理成本太高,不适合线上部署
- 核心目标: 同时获得“LLM 级推理质量”和“小模型级推理效率”。
方法详解¶
总体框架¶
输入新闻(文本 + 图片) -> 学生模型提取三视角特征 -> 教师模型生成三视角推理链 -> 校准蒸馏对齐 -> 融合判别真假。
1. 学生三视角表示¶
- 文本视角:BERT + self-attention -> \(f_{text}\)
- 图像视角:MAE + self-attention -> \(f_{image}\)
- 跨模态视角:CLIP 图文嵌入 + co-attention -> \(f_{cross}\)
2. 教师三视角推理¶
- 使用 Qwen2.5-VL 针对每个视角分别生成推理解释(reasoning chains)
- 再用 Sentence Transformer 将推理文本编码为稠密监督向量:\(f'_{text}, f'_{image}, f'_{cross}\)
3. 校准蒸馏(Calibration Distillation)¶
不是简单把学生特征投影到教师空间,而是先预测“修正量”:
\[
d_v^{pred}=MLP_v([f_{text};f_{image};f_{cross}]),\quad \hat f_v=f_v+d_v^{pred}
\]
- 关键点:每个视角的修正都基于全局三视角上下文
- 直觉:学生不是死记教师特征,而是学习“我和教师差在哪里”
蒸馏损失由两部分组成: - KL 对齐教师分布 - CE 深监督保证每个视角都可判别
4. 多视角融合¶
- 将校准后的三视角特征作为 value/key
- 由全局池化查询向量做 cross-attention
- 输出最终融合表示用于真假分类
实验关键数据¶
主结果¶
| 方法 | Weibo Acc | Weibo21 Acc | GossipCop Acc |
|---|---|---|---|
| MIMoE-FND | 0.928 | 0.956 | 0.895 |
| KEN | 0.935 | 0.935 | 0.881 |
| FactAgent | 0.927 | 0.932 | 0.860 |
| LLM-MRD | 0.953 | 0.959 | 0.902 |
论文报告跨全部数据和方法平均提升: - ACC +5.19% - F1-Fake +6.33%
消融结论(关键)¶
- 去掉校准蒸馏会显著掉点
- 直接投影蒸馏 < 校准蒸馏(残差修正更有效)
- 三视角同时建模优于任一单视角
关键洞察¶
- 假新闻检测本质上是“证据推理”问题,不只是“特征融合”问题
- LLM 作为“推理教师”比作为“最终推理器”更工程友好
- 视角级蒸馏比全局蒸馏更可控,解释性也更强
局限性¶
- 教师推理链质量依赖 Qwen2.5-VL,若教师幻觉会传递噪声
- 三视角权重仍偏全局固定,缺少样本级自适应加权
- 只验证了假新闻检测,迁移到谣言溯源/立场检测仍待验证
评分¶
- 新颖性: ⭐⭐⭐⭐(从“蒸馏结果”升级到“蒸馏推理过程”)
- 实验充分度: ⭐⭐⭐⭐(三基准、跨语言、主流强基线)
- 写作质量: ⭐⭐⭐⭐(方法结构清晰)
- 价值: ⭐⭐⭐⭐(适合真实场景的高性价比路线)