LLM-MRD: LLM-Guided Multi-View Reasoning Distillation for Fake News Detection¶

日期: 2026-03-10
arXiv: 2603.19293
代码: LLM-MRD (anonymous)
领域: 多模态 / 假新闻检测
关键词: fake news detection, knowledge distillation, multi-view reasoning, calibration distillation, teacher-student

一句话总结¶

提出 LLM-MRD：让 Qwen2.5-VL 教师分别从文本、图像、跨模态三视角生成推理链，再通过“校准蒸馏”把推理能力迁移给轻量学生模型，在 Weibo/Weibo21/GossipCop 上显著超过现有多模态方法。

研究背景与动机¶

现状: 多模态假新闻检测通常依赖特征拼接或注意力融合，但对复杂伪造（图文错配、语境误导）不够稳健。
问题:
- 传统融合方法“看见了特征”，但未显式学习“如何推理”
- 直接用大模型推理成本太高，不适合线上部署
核心目标: 同时获得“LLM 级推理质量”和“小模型级推理效率”。

方法详解¶

总体框架¶

输入新闻（文本 + 图片） -> 学生模型提取三视角特征 -> 教师模型生成三视角推理链 -> 校准蒸馏对齐 -> 融合判别真假。

1. 学生三视角表示¶

文本视角：BERT + self-attention -> \(f_{text}\)
图像视角：MAE + self-attention -> \(f_{image}\)
跨模态视角：CLIP 图文嵌入 + co-attention -> \(f_{cross}\)

2. 教师三视角推理¶

使用 Qwen2.5-VL 针对每个视角分别生成推理解释（reasoning chains）
再用 Sentence Transformer 将推理文本编码为稠密监督向量：\(f'_{text}, f'_{image}, f'_{cross}\)

3. 校准蒸馏（Calibration Distillation）¶

不是简单把学生特征投影到教师空间，而是先预测“修正量”：

\[ d_v^{pred}=MLP_v([f_{text};f_{image};f_{cross}]),\quad \hat f_v=f_v+d_v^{pred} \]

关键点：每个视角的修正都基于全局三视角上下文
直觉：学生不是死记教师特征，而是学习“我和教师差在哪里”

蒸馏损失由两部分组成： - KL 对齐教师分布 - CE 深监督保证每个视角都可判别

4. 多视角融合¶

将校准后的三视角特征作为 value/key
由全局池化查询向量做 cross-attention
输出最终融合表示用于真假分类

实验关键数据¶

主结果¶

方法	Weibo Acc	Weibo21 Acc	GossipCop Acc
MIMoE-FND	0.928	0.956	0.895
KEN	0.935	0.935	0.881
FactAgent	0.927	0.932	0.860
LLM-MRD	0.953	0.959	0.902

论文报告跨全部数据和方法平均提升： - ACC +5.19% - F1-Fake +6.33%

消融结论（关键）¶

去掉校准蒸馏会显著掉点
直接投影蒸馏 < 校准蒸馏（残差修正更有效）
三视角同时建模优于任一单视角

关键洞察¶

假新闻检测本质上是“证据推理”问题，不只是“特征融合”问题
LLM 作为“推理教师”比作为“最终推理器”更工程友好
视角级蒸馏比全局蒸馏更可控，解释性也更强

局限性¶

教师推理链质量依赖 Qwen2.5-VL，若教师幻觉会传递噪声
三视角权重仍偏全局固定，缺少样本级自适应加权
只验证了假新闻检测，迁移到谣言溯源/立场检测仍待验证

评分¶

新颖性: ⭐⭐⭐⭐（从“蒸馏结果”升级到“蒸馏推理过程”）
实验充分度: ⭐⭐⭐⭐（三基准、跨语言、主流强基线）
写作质量: ⭐⭐⭐⭐（方法结构清晰）
价值: ⭐⭐⭐⭐（适合真实场景的高性价比路线）